論文の概要: OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion
- arxiv url: http://arxiv.org/abs/2512.00234v1
- Date: Fri, 28 Nov 2025 22:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.124528
- Title: OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion
- Title(参考訳): OmniFusion: モジュールフュージョンによる同時多言語多モーダル翻訳
- Authors: Sai Koneru, Matthias Huck, Jan Niehues,
- Abstract要約: 本稿では,効率的な多モーダル翻訳システムを構築するためのエンドツーエンドアプローチを提案する。
本稿では,事前訓練されたMMFMの複数の層から隠れた状態を翻訳LLMに接続する新しい融合戦略を提案する。
得られたモデルであるOmniFusionは、音声からテキストへの変換、音声・画像・テキストへの変換、テキスト・画像・テキストへの変換を行うことができる。
- 参考スコア(独自算出の注目度): 14.856747950038553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation quality\footnote{Code is available at https://github.com/saikoneru/OmniFusion}.
- Abstract(参考訳): オープンソースのテキストのみの翻訳大言語モデル(LLM)は、言語カバレッジと品質が向上している。
しかし、これらのモデルは、まず自動音声認識を行い、次に翻訳を行うためのカスケードパイプラインでのみ使用できる。
これは、特に同時ST(SimulST)において重要な追加レイテンシを導入し、曖昧さを助長する画像などのマルチモーダルコンテキストを利用できないようにする。
事前訓練されたマルチモーダル基礎モデル(MMFM)は、複数のモーダルにまたがる強い知覚と推論能力を持っているが、一般的には多言語カバレッジと専用翻訳LLMの特殊翻訳性能は欠如している。
効率的な多モーダル翻訳システムを構築するために,MMFMとLLMを融合するエンドツーエンドアプローチを提案する。
我々は,事前訓練されたMMFMの複数の層から隠れた状態を翻訳LLMに接続する新たな融合戦略を導入する。
Omni 2.5-7B を MMFM として,SeedX PPO-7B を LLM として構築したOmniFusion は,音声からテキストへの変換,音声・画像・テキストへの変換,テキスト・画像・テキストへの変換を行う。
実験では、OmniFusionはオーディオ入力とビジュアル入力の両方を効果的に利用し、カスケードパイプラインと比較してSimulSTの1秒のレイテンシ低減を実現し、また、全体の翻訳品質\footnote{Codeがhttps://github.com/saikoneru/OmniFusion}で利用可能であることを実証している。
関連論文リスト
- Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion [42.60008616386837]
音声誘導機械翻訳(SMT)フレームワークは、音声とテキストを融合入力としてMLLMに統合し、翻訳品質を向上させる。
このフレームワークのコアコンポーネントは、合成音声を生成するためのテキスト音声モデルと、合成音声サンプルを分類可能なMLLMである。
論文 参考訳(メタデータ) (2026-02-25T07:19:34Z) - End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs [0.3867363075280544]
音声翻訳(英: Speech Translation、ST)とは、ある言語からの音声信号を他の言語の対応するテキストに変換することを含む機械翻訳タスクである。
本稿では,事前学習した音声エンコーダとLarge Language Models(LLM)を併用して,音声認識(ASR)とSTの両方を同時に実行するためのエンドツーエンドアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2025-10-11T20:10:30Z) - LMFusion: Adapting Pretrained Language Models for Multimodal Generation [81.78257799283777]
LMFusionは、事前訓練されたテキストのみの大規模言語モデル(LLM)をマルチモーダル生成機能で強化するフレームワークである。
複数モーダル生成モデルをスクラッチから事前訓練する手法と比較して, LMFusionは画像理解を20%改善し, 画像生成を3.6%改善し, FLOPの50%しか利用できないことを示した。
論文 参考訳(メタデータ) (2024-12-19T18:56:24Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.56746545958522]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - OneLLM: One Framework to Align All Modalities with Language [86.8818857465443]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for
Multimodal Machine Translation [31.911593690549633]
マルチモーダル機械翻訳(MMT)システムは、視覚的知識でニューラルネットワーク翻訳(NMT)を強化する。
注釈付き多言語視覚言語データが不足しているため、従来の作業は、強力なMTTモデルをゼロからトレーニングする際の課題に直面していた。
独立に訓練されたマルチモーダルM-CLIPと多言語mBARTを適応させるCLIPTransを提案する。
論文 参考訳(メタデータ) (2023-08-29T11:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。