論文の概要: Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task
- arxiv url: http://arxiv.org/abs/2107.05782v1
- Date: Mon, 12 Jul 2021 23:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:36:16.385444
- Title: Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task
- Title(参考訳): 補助的テキスト翻訳課題からの理解と学習による音声翻訳の改善
- Authors: Yun Tang, Juan Pino, Xian Li, Changhan Wang, Dmitriy Genzel
- Abstract要約: 我々は,タスクがマルチタスク学習フレームワークにおけるメインタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから同様のデコーダ表現を生成する傾向があることを確認した。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
- 参考スコア(独自算出の注目度): 26.703809355057224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining and multitask learning are widely used to improve the speech to
text translation performance. In this study, we are interested in training a
speech to text translation model along with an auxiliary text to text
translation task. We conduct a detailed analysis to understand the impact of
the auxiliary task on the primary task within the multitask learning framework.
Our analysis confirms that multitask learning tends to generate similar decoder
representations from different modalities and preserve more information from
the pretrained text translation modules. We observe minimal negative transfer
effect between the two tasks and sharing more parameters is helpful to transfer
knowledge from the text task to the speech task. The analysis also reveals that
the modality representation difference at the top decoder layers is still not
negligible, and those layers are critical for the translation quality. Inspired
by these findings, we propose three methods to improve translation quality.
First, a parameter sharing and initialization strategy is proposed to enhance
information sharing between the tasks. Second, a novel attention-based
regularization is proposed for the encoders and pulls the representations from
different modalities closer. Third, an online knowledge distillation is
proposed to enhance the knowledge transfer from the text to the speech task.
Our experiments show that the proposed approach improves translation
performance by more than 2 BLEU over a strong baseline and achieves
state-of-the-art results on the \textsc{MuST-C} English-German, English-French
and English-Spanish language pairs.
- Abstract(参考訳): 事前学習とマルチタスク学習は、テキスト翻訳性能を改善するために広く用いられている。
本研究では,テキスト翻訳モデルに助成的なテキスト翻訳タスクとともに,音声からテキストへの翻訳モデルを訓練することに興味がある。
補助タスクがマルチタスク学習フレームワークにおけるプライマリタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから類似のデコーダ表現を生成し、事前訓練されたテキスト翻訳モジュールからより多くの情報を保持する傾向があることを確認した。
2つのタスク間の最小の負の転送効果を観察し、より多くのパラメータを共有することは、テキストタスクから音声タスクへの知識の転送に役立つ。
また、上層デコーダ層におけるモダリティ表現差がまだ無視できないことや、それらの層が翻訳品質に重要なことを明らかにする。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
まず,タスク間の情報共有を強化するためのパラメータ共有と初期化戦略を提案する。
第二に、新しい注意に基づく正規化がエンコーダに対して提案され、異なるモーダルから近い表現を引き出す。
第3に,テキストから音声タスクへの知識伝達を強化するために,オンライン知識蒸留法を提案する。
提案手法は,強いベースライン上で2 BLEU以上の翻訳性能を向上し,英語-ドイツ語,英語-フランス語,英語-スペイン語のペアに対して最先端の結果が得られることを示す。
関連論文リスト
- LLM-based Translation Inference with Iterative Bilingual Understanding [45.00660558229326]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Improving End-to-End Text Image Translation From the Auxiliary Text
Translation Task [26.046624228278528]
本稿では,テキスト翻訳を補助タスクとするエンドツーエンドモデルを訓練する,新しいテキスト翻訳拡張テキスト画像翻訳を提案する。
モデルパラメータとマルチタスクのトレーニングを共有することで,大規模テキスト並列コーパスを最大限に活用することができる。
論文 参考訳(メタデータ) (2022-10-08T02:35:45Z) - Scheduled Multi-task Learning for Neural Chat Translation [66.81525961469494]
ニューラルチャット翻訳(NCT)のためのマルチタスク学習フレームワークを提案する。
具体的には、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案する。
提案手法の有効性と優越性を検証するために, 4言語方向の広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-08T02:57:28Z) - Time-Aware Ancient Chinese Text Translation and Inference [6.787414471399024]
我々は、古代漢文の翻訳をめぐる課題に対処することを目指している。
時代の違いによる言語的なギャップは、質の悪い翻訳をもたらす。
ほとんどの翻訳は、しばしばテキストを理解するのに非常に重要な文脈情報を欠いている。
論文 参考訳(メタデータ) (2021-07-07T12:23:52Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。