論文の概要: Improving End-to-end Speech Translation by Leveraging Auxiliary Speech
and Text Data
- arxiv url: http://arxiv.org/abs/2212.01778v1
- Date: Sun, 4 Dec 2022 09:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:36:36.791768
- Title: Improving End-to-end Speech Translation by Leveraging Auxiliary Speech
and Text Data
- Title(参考訳): 補助音声とテキストデータを活用したエンドツーエンド音声翻訳の改善
- Authors: Yuhao Zhang, Chen Xu, Bojie Hu, Chunliang Zhang, Tong Xiao, Jingbo Zhu
- Abstract要約: 本稿では,事前学習したエンドツーエンド音声翻訳システムにテキストエンコーダを導入する方法を提案する。
これは、あるモダリティ(すなわち、ソース言語音声)を他の(すなわち、ソース言語テキスト)に適応する能力を高める。
- 参考スコア(独自算出の注目度): 38.816953592085156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for introducing a text encoder into pre-trained
end-to-end speech translation systems. It enhances the ability of adapting one
modality (i.e., source-language speech) to another (i.e., source-language
text). Thus, the speech translation model can learn from both unlabeled and
labeled data, especially when the source-language text data is abundant. Beyond
this, we present a denoising method to build a robust text encoder that can
deal with both normal and noisy text data. Our system sets new
state-of-the-arts on the MuST-C En-De, En-Fr, and LibriSpeech En-Fr tasks.
- Abstract(参考訳): 本稿では,事前学習された音声翻訳システムに対して,テキストエンコーダを導入する手法を提案する。
これは、あるモダリティ(すなわち、ソース言語音声)を別の(すなわち、ソース言語テキスト)に適応する能力を高める。
これにより、特にソース言語テキストデータが豊富である場合には、ラベル付きデータとラベル付きデータの両方から音声翻訳モデルを学ぶことができる。
さらに,正規およびノイズの多いテキストデータを扱う頑健なテキストエンコーダを構築するためのデノイング手法を提案する。
本システムでは, MuST-C En-De, En-Fr, LibriSpeech En-Fr タスクに新たな最先端技術を設定する。
関連論文リスト
- Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Sample, Translate, Recombine: Leveraging Audio Alignments for Data
Augmentation in End-to-end Speech Translation [14.839931533868176]
本稿では,音声アライメント,言語特性,翻訳を利用したデータ拡張手法を提案する。
提案手法は,CoVoST 2上の5つの言語対とEuroparl-ST上の2つの言語対に対して,最大0.9と1.1のBLEU点を一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-03-16T17:15:46Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。