論文の概要: Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task
- arxiv url: http://arxiv.org/abs/2107.05782v1
- Date: Mon, 12 Jul 2021 23:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:36:16.385444
- Title: Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task
- Title(参考訳): 補助的テキスト翻訳課題からの理解と学習による音声翻訳の改善
- Authors: Yun Tang, Juan Pino, Xian Li, Changhan Wang, Dmitriy Genzel
- Abstract要約: 我々は,タスクがマルチタスク学習フレームワークにおけるメインタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから同様のデコーダ表現を生成する傾向があることを確認した。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
- 参考スコア(独自算出の注目度): 26.703809355057224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining and multitask learning are widely used to improve the speech to
text translation performance. In this study, we are interested in training a
speech to text translation model along with an auxiliary text to text
translation task. We conduct a detailed analysis to understand the impact of
the auxiliary task on the primary task within the multitask learning framework.
Our analysis confirms that multitask learning tends to generate similar decoder
representations from different modalities and preserve more information from
the pretrained text translation modules. We observe minimal negative transfer
effect between the two tasks and sharing more parameters is helpful to transfer
knowledge from the text task to the speech task. The analysis also reveals that
the modality representation difference at the top decoder layers is still not
negligible, and those layers are critical for the translation quality. Inspired
by these findings, we propose three methods to improve translation quality.
First, a parameter sharing and initialization strategy is proposed to enhance
information sharing between the tasks. Second, a novel attention-based
regularization is proposed for the encoders and pulls the representations from
different modalities closer. Third, an online knowledge distillation is
proposed to enhance the knowledge transfer from the text to the speech task.
Our experiments show that the proposed approach improves translation
performance by more than 2 BLEU over a strong baseline and achieves
state-of-the-art results on the \textsc{MuST-C} English-German, English-French
and English-Spanish language pairs.
- Abstract(参考訳): 事前学習とマルチタスク学習は、テキスト翻訳性能を改善するために広く用いられている。
本研究では,テキスト翻訳モデルに助成的なテキスト翻訳タスクとともに,音声からテキストへの翻訳モデルを訓練することに興味がある。
補助タスクがマルチタスク学習フレームワークにおけるプライマリタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから類似のデコーダ表現を生成し、事前訓練されたテキスト翻訳モジュールからより多くの情報を保持する傾向があることを確認した。
2つのタスク間の最小の負の転送効果を観察し、より多くのパラメータを共有することは、テキストタスクから音声タスクへの知識の転送に役立つ。
また、上層デコーダ層におけるモダリティ表現差がまだ無視できないことや、それらの層が翻訳品質に重要なことを明らかにする。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
まず,タスク間の情報共有を強化するためのパラメータ共有と初期化戦略を提案する。
第二に、新しい注意に基づく正規化がエンコーダに対して提案され、異なるモーダルから近い表現を引き出す。
第3に,テキストから音声タスクへの知識伝達を強化するために,オンライン知識蒸留法を提案する。
提案手法は,強いベースライン上で2 BLEU以上の翻訳性能を向上し,英語-ドイツ語,英語-フランス語,英語-スペイン語のペアに対して最先端の結果が得られることを示す。
関連論文リスト
- Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。
署名ビデオと追加のコンテキストキューを組み込む。
文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-01-16T18:59:03Z) - Representation Purification for End-to-End Speech Translation [16.967317436711113]
音声からテキストへの変換(英語: Speech-to-text translation, ST)とは、音声を別の言語でテキストに変換する作業である。
我々は,コンテンツに依存しない要素とコンテンツ関連要因の組み合わせとして,音声表現を概念化する。
論文 参考訳(メタデータ) (2024-12-05T15:50:44Z) - USTCCTSU at SemEval-2024 Task 1: Reducing Anisotropy for Cross-lingual Semantic Textual Relatedness Task [17.905282052666333]
言語間セマンティックテキスト関連性タスクは,言語間コミュニケーションやテキスト理解における課題に対処する重要な研究課題である。
これは、機械翻訳、多言語情報検索、言語間テキスト理解といった下流タスクに不可欠な、異なる言語間のセマンティックな接続を確立するのに役立つ。
当社のアプローチでは、スペインで2位、インドネシアで3位、そしてトップ10の複数のエントリーが、コンペティションのトラックCで行われます。
論文 参考訳(メタデータ) (2024-11-28T08:40:14Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Improving End-to-End Text Image Translation From the Auxiliary Text
Translation Task [26.046624228278528]
本稿では,テキスト翻訳を補助タスクとするエンドツーエンドモデルを訓練する,新しいテキスト翻訳拡張テキスト画像翻訳を提案する。
モデルパラメータとマルチタスクのトレーニングを共有することで,大規模テキスト並列コーパスを最大限に活用することができる。
論文 参考訳(メタデータ) (2022-10-08T02:35:45Z) - Scheduled Multi-task Learning for Neural Chat Translation [66.81525961469494]
ニューラルチャット翻訳(NCT)のためのマルチタスク学習フレームワークを提案する。
具体的には、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案する。
提案手法の有効性と優越性を検証するために, 4言語方向の広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-08T02:57:28Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。