論文の概要: Unsupervised Word Segmentation from Discrete Speech Units in
Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2106.04298v1
- Date: Tue, 8 Jun 2021 12:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 01:15:24.453924
- Title: Unsupervised Word Segmentation from Discrete Speech Units in
Low-Resource Settings
- Title(参考訳): 低リソース環境における離散音声単位からの教師なし単語セグメンテーション
- Authors: Marcely Zanon Boito, Bolaji Yusuf, Lucas Ondel, Aline Villavicencio,
Laurent Besacier
- Abstract要約: 音声からの教師なしワード(UWS)は有用だが、難しい作業である。
UWSにおける生成単位の可利用性について、5つの音声認識モデルを比較した。
以上の結果から,音声の離散化のためのニューラルモデルの利用は困難であり,シーケンス長の制限に適応する必要がある可能性が示唆された。
- 参考スコア(独自算出の注目度): 27.577882924447284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When documenting oral-languages, Unsupervised Word Segmentation (UWS) from
speech is a useful, yet challenging, task. It can be performed from phonetic
transcriptions, or in the absence of these, from the output of unsupervised
speech discretization models. These discretization models are trained using raw
speech only, producing discrete speech units which can be applied for
downstream (text-based) tasks. In this paper we compare five of these models:
three Bayesian and two neural approaches, with regards to the exploitability of
the produced units for UWS. Two UWS models are experimented with and we report
results for Finnish, Hungarian, Mboshi, Romanian and Russian in a low-resource
setting (using only 5k sentences). Our results suggest that neural models for
speech discretization are difficult to exploit in our setting, and that it
might be necessary to adapt them to limit sequence length. We obtain our best
UWS results by using the SHMM and H-SHMM Bayesian models, which produce high
quality, yet compressed, discrete representations of the input speech signal.
- Abstract(参考訳): 口頭言語を文書化する際、音声からの教師なしワードセグメンテーション(UWS)は有用だが難しい作業である。
音声の書き起こしから、あるいはこれらがない場合には、教師なしの音声離散化モデルの出力から行うことができる。
これらの離散化モデルは生音声のみを用いて訓練され、下流(テキストベース)タスクに適用可能な離散音声単位を生成する。
本稿では,3つのベイズ的アプローチと2つのニューラルアプローチの5つのモデルを比較する。
2つのUWSモデルを実験し,フィンランド語,ハンガリー語,ムボシ語,ルーマニア語,ロシア語の低リソース環境での結果を報告する。
以上の結果から,音声識別のためのニューラルモデルの利用は困難であり,シーケンス長の制限に適応する必要がある可能性が示唆された。
入力音声信号の高品質かつ圧縮された離散表現を生成するSHMMおよびH-SHMMベイズモデルを用いて、最良のUWS結果を得る。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Text-Free Prosody-Aware Generative Spoken Language Modeling [46.19240899818964]
pGSLM(Prosody-aware Generative Speech Language Model)を提案する。
音声のマルチストリームトランスフォーマー言語モデル(MS-TLM)と、MS-TLM出力を波形に変換する適応型HiFi-GANモデルで構成されている。
実験結果から, pGSLMは韻律とコンテンツモデリングの両方を改善するために韻律を利用することができ, 自然な, 意味のある, 一貫性のある音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-09-07T18:03:21Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。