論文の概要: Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion
- arxiv url: http://arxiv.org/abs/2602.21646v1
- Date: Wed, 25 Feb 2026 07:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.739928
- Title: Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion
- Title(参考訳): 音声テキスト融合によるスケーラブル多言語多モーダル機械翻訳
- Authors: Yexing Du, Youcheng Pan, Zekun Wang, Zheng Chu, Yichong Huang, Kaiyuan Liu, Bo Yang, Yang Xiang, Ming Liu, Bing Qin,
- Abstract要約: 音声誘導機械翻訳(SMT)フレームワークは、音声とテキストを融合入力としてMLLMに統合し、翻訳品質を向上させる。
このフレームワークのコアコンポーネントは、合成音声を生成するためのテキスト音声モデルと、合成音声サンプルを分類可能なMLLMである。
- 参考スコア(独自算出の注目度): 42.60008616386837
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved notable success in enhancing translation performance by integrating multimodal information. However, existing research primarily focuses on image-guided methods, whose applicability is constrained by the scarcity of multilingual image-text pairs. The speech modality overcomes this limitation due to its natural alignment with text and the abundance of existing speech datasets, which enable scalable language coverage. In this paper, we propose a Speech-guided Machine Translation (SMT) framework that integrates speech and text as fused inputs into an MLLM to improve translation quality. To mitigate reliance on low-resource data, we introduce a Self-Evolution Mechanism. The core components of this framework include a text-to-speech model, responsible for generating synthetic speech, and an MLLM capable of classifying synthetic speech samples and iteratively optimizing itself using positive samples. Experimental results demonstrate that our framework surpasses all existing methods on the Multi30K multimodal machine translation benchmark, achieving new state-of-the-art results. Furthermore, on general machine translation datasets, particularly the FLORES-200, it achieves average state-of-the-art performance in 108 translation directions. Ablation studies on CoVoST-2 confirms that differences between synthetic and authentic speech have negligible impact on translation quality. The code and models are released at https://github.com/yxduir/LLM-SRT.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,多モーダル情報の統合による翻訳性能の向上に成功している。
しかし、既存の研究は、多言語画像テキストペアの不足により適用性が制約される画像誘導方式に重点を置いている。
音声モダリティは、テキストとの自然な一致と、拡張性のある言語カバレッジを可能にする既存の音声データセットの多さにより、この制限を克服する。
本稿では,MLLMに音声とテキストを融合した音声誘導機械翻訳(SMT)フレームワークを提案する。
低リソースデータへの依存を軽減するため、自己進化機構を導入する。
このフレームワークのコアコンポーネントは、合成音声を生成する責任を持つテキスト音声モデルと、合成音声サンプルを分類し、正のサンプルを使用して自分自身を反復的に最適化できるMLLMである。
実験の結果,本フレームワークはMulti30Kマルチモーダル機械翻訳ベンチマークの既存手法を全て上回り,新たな最先端結果が得られた。
さらに、一般的な機械翻訳データセット、特にFLORES-200では、108の翻訳方向における平均的な最先端性能を達成する。
CoVoST-2のアブレーション研究は、合成音声と認証音声の違いが翻訳品質に悪影響を及ぼすことを確認した。
コードとモデルはhttps://github.com/yxduir/LLM-SRTで公開されている。
関連論文リスト
- OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion [14.856747950038553]
本稿では,効率的な多モーダル翻訳システムを構築するためのエンドツーエンドアプローチを提案する。
本稿では,事前訓練されたMMFMの複数の層から隠れた状態を翻訳LLMに接続する新しい融合戦略を提案する。
得られたモデルであるOmniFusionは、音声からテキストへの変換、音声・画像・テキストへの変換、テキスト・画像・テキストへの変換を行うことができる。
論文 参考訳(メタデータ) (2025-11-28T22:39:12Z) - End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs [0.3867363075280544]
音声翻訳(英: Speech Translation、ST)とは、ある言語からの音声信号を他の言語の対応するテキストに変換することを含む機械翻訳タスクである。
本稿では,事前学習した音声エンコーダとLarge Language Models(LLM)を併用して,音声認識(ASR)とSTの両方を同時に実行するためのエンドツーエンドアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2025-10-11T20:10:30Z) - Speech Translation Refinement using Large Language Models [8.602429274223693]
本稿では,大規模言語モデル(LLM)が,共同改良プロセスを導入することにより,音声翻訳の性能を向上する方法について検討する。
LLMによる音声翻訳(ST)と自動音声認識(ASR)の併用により,STモデルの性能は大幅に向上した。
7つの翻訳タスクを含む MuST-C と CoVoST 2 データセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-01-25T05:32:42Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine
Translation [19.332953510406327]
そこで本稿では,翻訳タスクのための音声とテキスト間のゼロショット・クロスモーダル転送を行う手法を提案する。
多言語音声とテキストは、結合した固定サイズ表現空間に符号化される。
言語とモダリティ間のゼロショット変換を可能にするため、これらのマルチモーダルおよびマルチリンガルの固定サイズ表現をデコードするための異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-05-24T17:23:35Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。