Fugu-MT 論文翻訳(概要): Improving Speech Translation by Understanding and Learning from the Auxiliary Text Translation Task

論文の概要: Improving Speech Translation by Understanding and Learning from the Auxiliary Text Translation Task

arxiv url: http://arxiv.org/abs/2107.05782v1
Date: Mon, 12 Jul 2021 23:53:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-14 14:36:16.385444
Title: Improving Speech Translation by Understanding and Learning from the Auxiliary Text Translation Task
Title（参考訳）: 補助的テキスト翻訳課題からの理解と学習による音声翻訳の改善
Authors: Yun Tang, Juan Pino, Xian Li, Changhan Wang, Dmitriy Genzel
Abstract要約: 我々は,タスクがマルチタスク学習フレームワークにおけるメインタスクに与える影響を理解するために,詳細な分析を行う。解析により、マルチタスク学習は、異なるモダリティから同様のデコーダ表現を生成する傾向があることを確認した。これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
参考スコア（独自算出の注目度）: 26.703809355057224
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pretraining and multitask learning are widely used to improve the speech to text translation performance. In this study, we are interested in training a speech to text translation model along with an auxiliary text to text translation task. We conduct a detailed analysis to understand the impact of the auxiliary task on the primary task within the multitask learning framework. Our analysis confirms that multitask learning tends to generate similar decoder representations from different modalities and preserve more information from the pretrained text translation modules. We observe minimal negative transfer effect between the two tasks and sharing more parameters is helpful to transfer knowledge from the text task to the speech task. The analysis also reveals that the modality representation difference at the top decoder layers is still not negligible, and those layers are critical for the translation quality. Inspired by these findings, we propose three methods to improve translation quality. First, a parameter sharing and initialization strategy is proposed to enhance information sharing between the tasks. Second, a novel attention-based regularization is proposed for the encoders and pulls the representations from different modalities closer. Third, an online knowledge distillation is proposed to enhance the knowledge transfer from the text to the speech task. Our experiments show that the proposed approach improves translation performance by more than 2 BLEU over a strong baseline and achieves state-of-the-art results on the \textsc{MuST-C} English-German, English-French and English-Spanish language pairs.
Abstract（参考訳）: 事前学習とマルチタスク学習は、テキスト翻訳性能を改善するために広く用いられている。本研究では,テキスト翻訳モデルに助成的なテキスト翻訳タスクとともに,音声からテキストへの翻訳モデルを訓練することに興味がある。補助タスクがマルチタスク学習フレームワークにおけるプライマリタスクに与える影響を理解するために,詳細な分析を行う。解析により、マルチタスク学習は、異なるモダリティから類似のデコーダ表現を生成し、事前訓練されたテキスト翻訳モジュールからより多くの情報を保持する傾向があることを確認した。 2つのタスク間の最小の負の転送効果を観察し、より多くのパラメータを共有することは、テキストタスクから音声タスクへの知識の転送に役立つ。また、上層デコーダ層におけるモダリティ表現差がまだ無視できないことや、それらの層が翻訳品質に重要なことを明らかにする。これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。まず,タスク間の情報共有を強化するためのパラメータ共有と初期化戦略を提案する。第二に、新しい注意に基づく正規化がエンコーダに対して提案され、異なるモーダルから近い表現を引き出す。第3に,テキストから音声タスクへの知識伝達を強化するために,オンライン知識蒸留法を提案する。提案手法は,強いベースライン上で2 BLEU以上の翻訳性能を向上し,英語-ドイツ語,英語-フランス語,英語-スペイン語のペアに対して最先端の結果が得られることを示す。

関連論文リスト

Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
Representation Purification for End-to-End Speech Translation [16.967317436711113]
音声からテキストへの変換(英語: Speech-to-text translation, ST)とは、音声を別の言語でテキストに変換する作業である。我々は,コンテンツに依存しない要素とコンテンツ関連要因の組み合わせとして,音声表現を概念化する。
論文参考訳（メタデータ） (2024-12-05T15:50:44Z)
USTCCTSU at SemEval-2024 Task 1: Reducing Anisotropy for Cross-lingual Semantic Textual Relatedness Task [17.905282052666333]
言語間セマンティックテキスト関連性タスクは,言語間コミュニケーションやテキスト理解における課題に対処する重要な研究課題である。これは、機械翻訳、多言語情報検索、言語間テキスト理解といった下流タスクに不可欠な、異なる言語間のセマンティックな接続を確立するのに役立つ。当社のアプローチでは、スペインで2位、インドネシアで3位、そしてトップ10の複数のエントリーが、コンペティションのトラックCで行われます。
論文参考訳（メタデータ） (2024-11-28T08:40:14Z)
LLM-based Translation Inference with Iterative Bilingual Understanding [45.00660558229326]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。 LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。提案したIBUTは、いくつかの強力な比較法より優れている。
論文参考訳（メタデータ） (2024-10-16T13:21:46Z)
Rethinking and Improving Multi-task Learning for End-to-end Speech Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文参考訳（メタデータ） (2023-11-07T08:48:46Z)
Improving End-to-End Text Image Translation From the Auxiliary Text Translation Task [26.046624228278528]
本稿では,テキスト翻訳を補助タスクとするエンドツーエンドモデルを訓練する,新しいテキスト翻訳拡張テキスト画像翻訳を提案する。モデルパラメータとマルチタスクのトレーニングを共有することで,大規模テキスト並列コーパスを最大限に活用することができる。
論文参考訳（メタデータ） (2022-10-08T02:35:45Z)
Scheduled Multi-task Learning for Neural Chat Translation [66.81525961469494]
ニューラルチャット翻訳(NCT)のためのマルチタスク学習フレームワークを提案する。具体的には、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案する。提案手法の有効性と優越性を検証するために, 4言語方向の広範囲な実験を行った。
論文参考訳（メタデータ） (2022-05-08T02:57:28Z)
Time-Aware Ancient Chinese Text Translation and Inference [6.787414471399024]
我々は、古代漢文の翻訳をめぐる課題に対処することを目指している。時代の違いによる言語的なギャップは、質の悪い翻訳をもたらす。ほとんどの翻訳は、しばしばテキストを理解するのに非常に重要な文脈情報を欠いている。
論文参考訳（メタデータ） (2021-07-07T12:23:52Z)
ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:35:22Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)
Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。 RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文参考訳（メタデータ） (2020-03-30T21:35:09Z)
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文参考訳（メタデータ） (2019-10-23T17:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。