論文の概要: Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation
- arxiv url: http://arxiv.org/abs/2311.03810v1
- Date: Tue, 7 Nov 2023 08:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 16:12:39.906378
- Title: Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation
- Title(参考訳): エンドツーエンド音声翻訳のためのマルチタスク学習の再考と改善
- Authors: Yuhao Zhang, Chen Xu, Bei Li, Hao Chen, Tong Xiao, Chunliang Zhang,
Jingbo Zhu
- Abstract要約: 異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
- 参考スコア(独自算出の注目度): 51.713683037303035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant improvements in end-to-end speech translation (ST) have been
achieved through the application of multi-task learning. However, the extent to
which auxiliary tasks are highly consistent with the ST task, and how much this
approach truly helps, have not been thoroughly studied. In this paper, we
investigate the consistency between different tasks, considering different
times and modules. We find that the textual encoder primarily facilitates
cross-modal conversion, but the presence of noise in speech impedes the
consistency between text and speech representations. Furthermore, we propose an
improved multi-task learning (IMTL) approach for the ST task, which bridges the
modal gap by mitigating the difference in length and representation. We conduct
experiments on the MuST-C dataset. The results demonstrate that our method
attains state-of-the-art results. Moreover, when additional data is used, we
achieve the new SOTA result on MuST-C English to Spanish task with 20.8% of the
training time required by the current SOTA method.
- Abstract(参考訳): マルチタスク学習の適用により、エンドツーエンド音声翻訳(ST)の大幅な改善が達成されている。
しかし、補助的なタスクがSTタスクと高度に一致し、このアプローチが本当にどれほど役立つかは、十分に研究されていない。
本稿では,異なる時間とモジュールを考慮したタスク間の一貫性について検討する。
テキストエンコーダは、主にクロスモーダル変換が促進されるが、音声中の雑音の存在は、テキストと音声表現の一貫性を妨げる。
さらに,stタスクに対するマルチタスク学習(imtl)手法の改良を提案し,長さと表現の違いを緩和することでモーダルギャップを橋渡しする。
MuST-Cデータセット上で実験を行う。
その結果,本手法は最先端の結果を得ることができた。
さらに,追加データを用いた場合,現在の sota 法で要求されるトレーニング時間の20.8%で, must-c 英語とスペイン語のタスクで新たな sota 結果が得られる。
関連論文リスト
- Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Understanding and Bridging the Modality Gap for Speech Translation [11.13240570688547]
マルチタスク学習は、機械翻訳(MT)とエンドツーエンド音声翻訳(ST)の間で知識を共有する効果的な方法の1つである。
しかし、音声とテキストの違いにより、STとMTの間には常にギャップがある。
本稿では,まず,このモダリティギャップを対象側の表現差から理解し,そのモダリティギャップとニューラルマシン翻訳における他のよく知られた問題,すなわち露出バイアスを関連付けることを目的とする。
論文 参考訳(メタデータ) (2023-05-15T15:09:18Z) - Effective Cross-Task Transfer Learning for Explainable Natural Language
Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。
この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-31T13:26:08Z) - Scheduled Multi-task Learning for Neural Chat Translation [66.81525961469494]
ニューラルチャット翻訳(NCT)のためのマルチタスク学習フレームワークを提案する。
具体的には、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案する。
提案手法の有効性と優越性を検証するために, 4言語方向の広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-08T02:57:28Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task [26.703809355057224]
我々は,タスクがマルチタスク学習フレームワークにおけるメインタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから同様のデコーダ表現を生成する傾向があることを確認した。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
論文 参考訳(メタデータ) (2021-07-12T23:53:40Z) - Learning Shared Semantic Space for Speech-to-Text Translation [32.12445734213848]
テキスト機械翻訳(MT)とエンドツーエンド音声翻訳(ST)のモダリティギャップを埋める手法を提案する。
音声とテキストの機能を共通の意味表現に投影することで、ChimeraはMTタスクとSTタスクを統一する。
特に、チメラはEN-DEで26.3 BLEUを取得し、SOTAを+2.7 BLEUマージンで改善した。
論文 参考訳(メタデータ) (2021-05-07T07:49:56Z) - A General Multi-Task Learning Framework to Leverage Text Data for Speech
to Text Tasks [36.216979991706594]
本稿では,自動音声認識(ASR)と音声翻訳(ST)タスクのためのテキストデータを活用する汎用マルチタスク学習フレームワークを提案する。
テキスト入力を音素シーケンスとして表現することで、音声とテキスト入力の差を減らし、テキストコーパスからテキストタスクへの知識伝達を促進できることを示す。
論文 参考訳(メタデータ) (2020-10-21T22:40:43Z) - Hierarchical Multi Task Learning with Subword Contextual Embeddings for
Languages with Rich Morphology [5.5217350574838875]
自然言語処理(NLP)における多くのシーケンスラベリングタスクにおける形態情報の重要性
本研究では, 単語文脈埋め込みを用いて, 豊富な形態素を持つ言語に対する形態情報を取得することを提案する。
我々のモデルは、トルコ語の両方のタスクにおける過去の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-25T22:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。