論文の概要: Optimal Multi-Task Learning at Regularization Horizon for Speech Translation Task
- arxiv url: http://arxiv.org/abs/2509.09701v1
- Date: Thu, 04 Sep 2025 17:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.729659
- Title: Optimal Multi-Task Learning at Regularization Horizon for Speech Translation Task
- Title(参考訳): 音声翻訳作業における正規化水平における最適マルチタスク学習
- Authors: JungHo Jung, Junhyun Lee,
- Abstract要約: 正規化の観点からマルチタスク学習(MTL)を定式化する。
整合正則化とR-dropが全正則化にどのように貢献するかを示す。
高次元空間における最適正則化輪郭(英語版)を導入し、正則化地平線(英語版)と呼ぶ。
- 参考スコア(独自算出の注目度): 4.714127708213542
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end speech-to-text translation typically suffers from the scarcity of paired speech-text data. One way to overcome this shortcoming is to utilize the bitext data from the Machine Translation (MT) task and perform Multi-Task Learning (MTL). In this paper, we formulate MTL from a regularization perspective and explore how sequences can be regularized within and across modalities. By thoroughly investigating the effect of consistency regularization (different modality) and R-drop (same modality), we show how they respectively contribute to the total regularization. We also demonstrate that the coefficient of MT loss serves as another source of regularization in the MTL setting. With these three sources of regularization, we introduce the optimal regularization contour in the high-dimensional space, called the regularization horizon. Experiments show that tuning the hyperparameters within the regularization horizon achieves near state-of-the-art performance on the MuST-C dataset.
- Abstract(参考訳): エンドツーエンドの音声テキスト翻訳は通常、ペア音声テキストデータの不足に悩まされる。
この欠点を克服する1つの方法は、機械翻訳(MT)タスクからbitextデータを使用し、マルチタスク学習(MTL)を実行することである。
本稿では, 正規化の観点からMLLを定式化し, 配列をモダリティ内および相互に正則化する方法について検討する。
整合正則化(差分モダリティ)とR-ドロップ(差分モダリティ)の効果を徹底的に研究することにより、それぞれが全体正則化にどのように貢献するかを示す。
また,MT損失係数がMTL設定における正規化の別の源であることを示す。
これら3つの正則化の源により、高次元空間における最適正則化輪郭、すなわち正則化地平線を導入する。
実験により、正規化地平線内でのハイパーパラメータのチューニングは、 MuST-C データセットの最先端性能に近いことが示されている。
関連論文リスト
- Traj-MLLM: Can Multimodal Large Language Models Reform Trajectory Data Mining? [16.718696916767428]
トラジェクティブデータマイニングにMLLMを用いた最初の汎用フレームワークである textttTraj-MLLM を提案する。
textttTraj-MLLMは、重要な時空間特性を保持しながら、生の軌跡をインターリーブされた画像テキストシーケンスに変換する。
4つの公開データセットの実験では、textttTraj-MLLMが最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-08-25T06:45:34Z) - Optimal Transport Regularization for Speech Text Alignment in Spoken Language Models [46.76139085979338]
OTRegは、音声テキストアライメントを最適な輸送問題として定式化し、正規化損失を導出し、SLM訓練を改善する方法である。
OTRegは軽量で、追加のラベルや学習可能なパラメータは必要とせず、既存のSLMトレーニング手順とシームレスに統合される。
論文 参考訳(メタデータ) (2025-08-11T16:06:04Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Understanding and Bridging the Modality Gap for Speech Translation [11.13240570688547]
マルチタスク学習は、機械翻訳(MT)とエンドツーエンド音声翻訳(ST)の間で知識を共有する効果的な方法の1つである。
しかし、音声とテキストの違いにより、STとMTの間には常にギャップがある。
本稿では,まず,このモダリティギャップを対象側の表現差から理解し,そのモダリティギャップとニューラルマシン翻訳における他のよく知られた問題,すなわち露出バイアスを関連付けることを目的とする。
論文 参考訳(メタデータ) (2023-05-15T15:09:18Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - Gaussian Multi-head Attention for Simultaneous Machine Translation [21.03142288187605]
同時機械翻訳(SiMT)は、ストリーミングソース入力を受信しながら翻訳を出力する。
我々は、アライメントと翻訳を統一的にモデル化し、新しいSiMTポリシーを提案する。
En-ViタスクとDe-Enタスクの実験により、我々の手法は翻訳とレイテンシのトレードオフにおいて強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-17T04:01:25Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。