論文の概要: Scaling A Simple Approach to Zero-Shot Speech Recognition
- arxiv url: http://arxiv.org/abs/2407.17852v1
- Date: Thu, 25 Jul 2024 08:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:48:09.279141
- Title: Scaling A Simple Approach to Zero-Shot Speech Recognition
- Title(参考訳): ゼロショット音声認識における簡易手法のスケーリング
- Authors: Jinming Zhao, Vineel Pratap, Michael Auli,
- Abstract要約: MMS Zero-shotは、平均的な文字エラー率を100言語以上で相対46%削減する。
我々のアプローチはドメイン内の教師付きベースラインに比べて2.5倍高い。
- 参考スコア(独自算出の注目度): 45.83866201822545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in increasing the language coverage of automatic speech recognition, the field is still far from covering all languages with a known writing script. Recent work showed promising results with a zero-shot approach requiring only a small amount of text data, however, accuracy heavily depends on the quality of the used phonemizer which is often weak for unseen languages. In this paper, we present MMS Zero-shot a conceptually simpler approach based on romanization and an acoustic model trained on data in 1,078 different languages or three orders of magnitude more than prior art. MMS Zero-shot reduces the average character error rate by a relative 46% over 100 unseen languages compared to the best previous work. Moreover, the error rate of our approach is only 2.5x higher compared to in-domain supervised baselines, while our approach uses no labeled data for the evaluation languages at all.
- Abstract(参考訳): 自動音声認識の言語カバレッジが急速に向上したにもかかわらず、すべての言語を既知のスクリプトでカバーする分野には程遠い。
近年の研究では、わずかなテキストデータしか必要としないゼロショット方式による有望な結果が示されているが、精度は、しばしば目に見えない言語では弱い使用音素の質に大きく依存している。
本稿では,MMS Zero-shotについて,ローマン化に基づく概念的にシンプルなアプローチと,1,078の異なる言語で訓練されたデータに基づく音響モデルを提案する。
MMS Zero-shotは、以前の最高の作業と比較して、平均的な文字エラー率を100言語以上の相対46%削減する。
さらに,提案手法の誤差率はドメイン内教師付きベースラインの2.5倍に過ぎず,評価言語にラベル付きデータを全く用いていない。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - ChatZero:Zero-shot Cross-Lingual Dialogue Generation via Pseudo-Target Language [53.8622516025736]
そこで本研究では,言語間符号切替方式に基づく,エンドツーエンドのゼロショット対話生成モデルChatZeroを提案する。
多言語DailyDialogとDSTC7-AVSDデータセットの実験は、ChatZeroが元のパフォーマンスの90%以上を達成することを示した。
論文 参考訳(メタデータ) (2024-08-16T13:11:53Z) - Initial Decoding with Minimally Augmented Language Model for Improved Lattice Rescoring in Low Resource ASR [0.532018200832244]
本稿では,低リソース言語における格子再構成による音声認識精度向上の問題に対処する。
対象言語のより大きなテキストコーパスに存在するが、ベースラインには存在しない単語ユニグラム数でベースライン言語モデルを最小化する。
提案手法を用いて,21.8% (Telugu) と41.8% (Kannada) の単語誤りを削減した。
論文 参考訳(メタデータ) (2024-03-16T14:34:31Z) - Multilingual Zero Resource Speech Recognition Base on Self-Supervise
Pre-Trained Acoustic Models [14.887781621924255]
本稿では,事前学習モデルの使用を単語レベルのゼロリソース音声認識に拡張するための最初の試みである。
IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。
Wav2vec 2.0とHuBERTモデルの実験により、この手法は一部の言語で単語誤り率を20%以下に抑えることができることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:11:18Z) - Language Tokens: A Frustratingly Simple Approach Improves Zero-Shot
Performance of Multilingual Translation [0.0]
我々は、エンコーダとデコーダの両方で入力トークンを変更し、ソースおよびターゲット言語用の信号を含める。
我々は、スクラッチからトレーニングを行う場合や、提案した設定で事前訓練されたモデルを微調整する場合のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-08-11T14:42:42Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Contextual Semantic Parsing for Multilingual Task-Oriented Dialogues [7.8378818005171125]
1つの言語で大規模な対話データセットをセットすると、機械翻訳を用いて他の言語に対して効果的な意味を自動生成できる。
本稿では、スロット値の忠実な翻訳を保証するために、アライメント付き対話データセットの自動翻訳を提案する。
簡潔な表現が翻訳誤りの複合効果を減少させることを示す。
論文 参考訳(メタデータ) (2021-11-04T01:08:14Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。