論文の概要: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
- arxiv url: http://arxiv.org/abs/2510.10003v1
- Date: Sat, 11 Oct 2025 04:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.919693
- Title: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
- Title(参考訳): MTP-S2UT:マルチトークン予測による音声音声翻訳品質の向上
- Authors: Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu,
- Abstract要約: 音声から単位への翻訳(S2UT)モデルにマルチトークン予測(MTP)損失を導入する。
全てのMPP損失変種がS2UT翻訳の品質を一貫して改善していることが示される。
- 参考スコア(独自算出の注目度): 49.92201266421949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
- Abstract(参考訳): 現在の音声から音声への翻訳法は、主に中間表現として音声トークンを用いる。
しかし、単一の音声トークンは意味論では密集していないため、一般的には完全な意味単位を表現するために複数のトークンが必要である。
この制限に対処するため,音声単位変換(S2UT)モデルにマルチトークン予測(MTP)の損失を導入し,各位置における複数のトークンの予測を可能にし,より完全なセマンティクスを捕捉し,位置ごとの情報密度を高める。
MTPの初期実装では最終層での損失が適用され、出力表現が向上するが、情報豊か化が遅すぎる。
我々は,情報豊化過程を中間層に進めることによって,隠蔽表現のより早く,より効果的に向上できると仮定する。
そこで本研究では,CTC損失が計算された隠れ表現にMPP損失を適用したMPP-S2UT損失を提案する。
実験により、全てのMPP損失変種がS2UT翻訳の品質を一貫して改善し、MPP-S2UTが最高の性能を達成することが示された。
関連論文リスト
- Entropy-based Coarse and Compressed Semantic Speech Representation Learning [72.18542411704347]
圧縮された意味表現を学習するためのエントロピーに基づく動的集約フレームワークを提案する。
ASR、音声からテキストへの変換、音声変換タスクの実験は、圧縮された表現が密度の高いトークンシーケンスと同等以上のパフォーマンスを示すことを示した。
論文 参考訳(メタデータ) (2025-08-30T13:50:58Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Pushing the Limits of Zero-shot End-to-End Speech Translation [15.725310520335785]
データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害である。
ゼロショットSTの手法であるZeroSwotを導入し、ペアSTデータを使わずにモダリティギャップをブリッジする。
実験の結果,STデータを使わずにモダリティギャップを効果的に塞ぐことが可能であること,MuST-CとCoVoSTで得られた結果が本手法の優位性を示している。
論文 参考訳(メタデータ) (2024-02-16T03:06:37Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。