論文の概要: OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion
- arxiv url: http://arxiv.org/abs/2512.00234v1
- Date: Fri, 28 Nov 2025 22:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.124528
- Title: OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion
- Title(参考訳): OmniFusion: モジュールフュージョンによる同時多言語多モーダル翻訳
- Authors: Sai Koneru, Matthias Huck, Jan Niehues,
- Abstract要約: 本稿では,効率的な多モーダル翻訳システムを構築するためのエンドツーエンドアプローチを提案する。
本稿では,事前訓練されたMMFMの複数の層から隠れた状態を翻訳LLMに接続する新しい融合戦略を提案する。
得られたモデルであるOmniFusionは、音声からテキストへの変換、音声・画像・テキストへの変換、テキスト・画像・テキストへの変換を行うことができる。
- 参考スコア(独自算出の注目度): 14.856747950038553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation quality\footnote{Code is available at https://github.com/saikoneru/OmniFusion}.
- Abstract(参考訳): オープンソースのテキストのみの翻訳大言語モデル(LLM)は、言語カバレッジと品質が向上している。
しかし、これらのモデルは、まず自動音声認識を行い、次に翻訳を行うためのカスケードパイプラインでのみ使用できる。
これは、特に同時ST(SimulST)において重要な追加レイテンシを導入し、曖昧さを助長する画像などのマルチモーダルコンテキストを利用できないようにする。
事前訓練されたマルチモーダル基礎モデル(MMFM)は、複数のモーダルにまたがる強い知覚と推論能力を持っているが、一般的には多言語カバレッジと専用翻訳LLMの特殊翻訳性能は欠如している。
効率的な多モーダル翻訳システムを構築するために,MMFMとLLMを融合するエンドツーエンドアプローチを提案する。
我々は,事前訓練されたMMFMの複数の層から隠れた状態を翻訳LLMに接続する新たな融合戦略を導入する。
Omni 2.5-7B を MMFM として,SeedX PPO-7B を LLM として構築したOmniFusion は,音声からテキストへの変換,音声・画像・テキストへの変換,テキスト・画像・テキストへの変換を行う。
実験では、OmniFusionはオーディオ入力とビジュアル入力の両方を効果的に利用し、カスケードパイプラインと比較してSimulSTの1秒のレイテンシ低減を実現し、また、全体の翻訳品質\footnote{Codeがhttps://github.com/saikoneru/OmniFusion}で利用可能であることを実証している。
関連論文リスト
- AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.56746545958522]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for
Multimodal Machine Translation [31.911593690549633]
マルチモーダル機械翻訳(MMT)システムは、視覚的知識でニューラルネットワーク翻訳(NMT)を強化する。
注釈付き多言語視覚言語データが不足しているため、従来の作業は、強力なMTTモデルをゼロからトレーニングする際の課題に直面していた。
独立に訓練されたマルチモーダルM-CLIPと多言語mBARTを適応させるCLIPTransを提案する。
論文 参考訳(メタデータ) (2023-08-29T11:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。