論文の概要: Consecutive Decoding for Speech-to-text Translation
- arxiv url: http://arxiv.org/abs/2009.09737v4
- Date: Fri, 15 Apr 2022 03:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 05:26:09.136473
- Title: Consecutive Decoding for Speech-to-text Translation
- Title(参考訳): 音声からテキストへの翻訳のための逐次復号化
- Authors: Qianqian Dong, Mingxuan Wang, Hao Zhou, Shuang Xu, Bo Xu, Lei Li
- Abstract要約: COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
- 参考スコア(独自算出の注目度): 51.155661276936044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-to-text translation (ST), which directly translates the source
language speech to the target language text, has attracted intensive attention
recently. However, the combination of speech recognition and machine
translation in a single model poses a heavy burden on the direct cross-modal
cross-lingual mapping. To reduce the learning difficulty, we propose
COnSecutive Transcription and Translation (COSTT), an integral approach for
speech-to-text translation. The key idea is to generate source transcript and
target translation text with a single decoder. It benefits the model training
so that additional large parallel text corpus can be fully exploited to enhance
the speech translation training. Our method is verified on three mainstream
datasets, including Augmented LibriSpeech English-French dataset, IWSLT2018
English-German dataset, and TED English-Chinese dataset. Experiments show that
our proposed COSTT outperforms or on par with the previous state-of-the-art
methods on the three datasets. We have released our code at
\url{https://github.com/dqqcasia/st}.
- Abstract(参考訳): 近年,言語音声を直接対象言語テキストに翻訳する音声テキスト翻訳 (ST) が注目されている。
しかし、単一モデルにおける音声認識と機械翻訳の組み合わせは、直接のクロスモーダル言語間マッピングに重荷を負う。
学習の難しさを軽減するために,音声からテキストへの翻訳に不可欠なCOnSecutive Transcription and Translation (COSTT)を提案する。
鍵となるアイデアは、ソース書き起こしとターゲット翻訳テキストを1つのデコーダで生成することである。
モデルトレーニングにより、さらに大きな並列テキストコーパスを十分に活用して、音声翻訳トレーニングを強化することができる。
提案手法は,Augmented LibriSpeech English- French dataset, IWSLT2018 English-German dataset,TED English- Chinese datasetの3つの主流データセットで検証される。
実験の結果,提案したCOSTTは従来の3つのデータセットの最先端手法よりも優れていた。
私たちはコードを \url{https://github.com/dqcasia/st} でリリースした。
関連論文リスト
- Translatotron 3: Speech to Speech Translation with Monolingual Data [23.376969078371282]
Translatotron 3は、モノリンガル音声テキストデータセットからの教師なし直接音声音声翻訳のための新しいアプローチである。
その結果,Translatotron 3はベースラインカスケードシステムより優れていた。
論文 参考訳(メタデータ) (2023-05-27T18:30:54Z) - Improving End-to-end Speech Translation by Leveraging Auxiliary Speech
and Text Data [38.816953592085156]
本稿では,事前学習したエンドツーエンド音声翻訳システムにテキストエンコーダを導入する方法を提案する。
これは、あるモダリティ(すなわち、ソース言語音声)を他の(すなわち、ソース言語テキスト)に適応する能力を高める。
論文 参考訳(メタデータ) (2022-12-04T09:27:56Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine
Translation [19.332953510406327]
そこで本稿では,翻訳タスクのための音声とテキスト間のゼロショット・クロスモーダル転送を行う手法を提案する。
多言語音声とテキストは、結合した固定サイズ表現空間に符号化される。
言語とモダリティ間のゼロショット変換を可能にするため、これらのマルチモーダルおよびマルチリンガルの固定サイズ表現をデコードするための異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-05-24T17:23:35Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。