論文の概要: Self-Training for End-to-End Speech Translation
- arxiv url: http://arxiv.org/abs/2006.02490v2
- Date: Tue, 13 Oct 2020 05:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 18:31:22.097306
- Title: Self-Training for End-to-End Speech Translation
- Title(参考訳): エンドツーエンド音声翻訳のための自己学習
- Authors: Juan Pino and Qiantong Xu and Xutai Ma and Mohammad Javad Dousti and
Yun Tang
- Abstract要約: 我々は,未ラベル音声から生成した擬似ラベルをカスケードとエンドツーエンドの音声翻訳モデルにより活用する。
これにより、8.3と5.7BLEUは、 MuST-C の英語-フランス語-ドイツ語データセットの強い半教師付きベースラインを越えられる。
- 参考スコア(独自算出の注目度): 25.533474903598812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the main challenges for end-to-end speech translation is data
scarcity. We leverage pseudo-labels generated from unlabeled audio by a cascade
and an end-to-end speech translation model. This provides 8.3 and 5.7 BLEU
gains over a strong semi-supervised baseline on the MuST-C English-French and
English-German datasets, reaching state-of-the art performance. The effect of
the quality of the pseudo-labels is investigated. Our approach is shown to be
more effective than simply pre-training the encoder on the speech recognition
task. Finally, we demonstrate the effectiveness of self-training by directly
generating pseudo-labels with an end-to-end model instead of a cascade model.
- Abstract(参考訳): エンドツーエンド音声翻訳の主な課題の1つは、データ不足である。
ラベルなし音声から生成された擬似ラベルをカスケードとエンドツーエンド音声翻訳モデルで活用する。
これにより、8.3と5.7BLEUは、 MuST-C の英語とドイツ語のデータセットの強い半教師付きベースラインを越え、最先端のアートパフォーマンスを達成できる。
擬似ラベルの品質が与える影響について検討した。
本手法は、音声認識タスクでエンコーダを事前学習するよりも効果的であることを示す。
最後に,カスケードモデルの代わりにエンド・ツー・エンドモデルで擬似ラベルを直接生成することで,自己学習の有効性を示す。
関連論文リスト
- An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation [97.3797716862478]
Word-level AutoCompletion (WLAC) は、コンピュータ支援翻訳における報奨だが挑戦的なタスクである。
既存の作業は、入力コンテキストの隠れベクターを対応するラベルにマッピングするニューラルネットワークに基づく分類モデルを通じて、このタスクに対処する。
そこで本研究では,WLACのエネルギーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:07:19Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - LanSER: Language-Model Supported Speech Emotion Recognition [25.597250907836152]
本稿では,学習済みの大規模言語モデルを用いて弱い感情ラベルを推定することにより,ラベルなしデータの利用を可能にするLanSERを提案する。
分類学に制約された弱いラベルを推定するために、自動音声認識により抽出された音声の書き起こしに対して、最も深いスコアを持つ感情ラベルを選択するテキスト・エンタテインメント・アプローチを用いる。
実験結果から, 従来のSERデータセットのベースラインモデルでは, 精度が向上し, ラベル効率が向上した。
論文 参考訳(メタデータ) (2023-09-07T19:21:08Z) - Improving Self-training for Cross-lingual Named Entity Recognition with
Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。
本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-05-23T02:52:16Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。