論文の概要: OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment
- arxiv url: http://arxiv.org/abs/2509.19018v1
- Date: Tue, 23 Sep 2025 13:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.872306
- Title: OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment
- Title(参考訳): OmniBridge: 潜在空間アライメントによる統合マルチモーダル理解,生成,検索
- Authors: Teng Xiao, Zuchao Li, Lefei Zhang,
- Abstract要約: 我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 79.98946571424607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (LLMs) have led to significant progress in understanding, generation, and retrieval tasks. However, current solutions often treat these tasks in isolation or require training LLMs from scratch, resulting in high computational costs and limited generalization across modalities. In this work, we present OmniBridge, a unified and modular multimodal framework that supports vision-language understanding, generation, and retrieval within a unified architecture. OmniBridge adopts a language-centric design that reuses pretrained LLMs and introduces a lightweight bidirectional latent alignment module. To address the challenge of task interference, we propose a two-stage decoupled training strategy: supervised fine-tuning and latent space alignment for aligning LLM behavior with multimodal reasoning, and semantic-guided diffusion training to align cross-modal latent spaces via learnable query embeddings. Extensive experiments across a wide range of benchmarks demonstrate that OmniBridge achieves competitive or state-of-the-art performance in all three tasks. Moreover, our results highlight the effectiveness of latent space alignment for unifying multimodal modeling under a shared representation space. Code and models are released at https://github.com/xiao-xt/OmniBridge.
- Abstract(参考訳): マルチモーダル大言語モデル(LLM)の最近の進歩は、理解、生成、検索タスクに大きな進歩をもたらした。
しかし、現在のソリューションはしばしばこれらのタスクを分離して扱うか、あるいはゼロからLLMを訓練する必要があるため、計算コストが高くなり、モダリティをまたいだ一般化が制限される。
本稿では,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする,統一的でモジュール化されたマルチモーダルフレームワークであるOmniBridgeを紹介する。
OmniBridgeは、事前訓練されたLLMを再利用する言語中心の設計を採用し、軽量な双方向潜在アライメントモジュールを導入した。
タスク干渉の課題に対処するため,マルチモーダル推論によるLCM動作の調整のための微調整および潜時空間アライメントの指導と,学習可能なクエリ埋め込みによるクロスモーダル潜時空間のアライメントのための意味誘導拡散トレーニングという,2段階の非結合型トレーニング戦略を提案する。
OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを実現している。
さらに,共有表現空間下でのマルチモーダルモデリングにおける潜在空間アライメントの有効性を強調した。
コードとモデルはhttps://github.com/xiao-xt/OmniBridge.comで公開されている。
関連論文リスト
- VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo [25.89459841661218]
Ve Omni - 大規模言語モデル(LLM)のトレーニングフレームワーク。
Ve Omni氏は、計算からコミュニケーションを分離するモデル中心の分散レシピを紹介した。
Ve Omniは2,800トークン/秒/GPUスループットでトレーニングでき、128GPU上の3D並列処理によって160Kのコンテキスト長にスケールすることができる。
論文 参考訳(メタデータ) (2025-08-04T11:33:04Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability [14.703591553247948]
ARMORは、マルチモーダルな大規模言語モデルのためのリソース効率が高く純粋な自動回帰フレームワークである。
既存のMLLMを微調整することで、理解と生成を両立させる。
ARMOR は,既存の MLLM を UniM にアップグレードし,将来性のある画像生成機能を実現する。
論文 参考訳(メタデータ) (2025-03-09T10:15:39Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。