論文の概要: HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2511.20520v1
- Date: Tue, 25 Nov 2025 17:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.576091
- Title: HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation
- Title(参考訳): HBridge: 統一マルチモーダル理解と生成のためのヘテロジニアスエキスパートのH形ブリッジ
- Authors: Xiang Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yuqian Zhou, Qing Liu, Shiwei Zhang, Yijun Li, Shaoteng Liu, Haitian Zheng, Jason Kuen, Yuehuan Wang, Changxin Gao, Nong Sang,
- Abstract要約: 最近の統一モデルでは、理解の専門家(LLMなど)と生成の専門家(拡散モデルなど)を統合している。
本研究では,非対称なH字型アーキテクチャであるHBridgeを提案する。
複数のベンチマークにわたる大規模な実験は、HBridgeの有効性と優れた性能を示している。
- 参考スコア(独自算出の注目度): 72.69742127579508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent unified models integrate understanding experts (e.g., LLMs) with generative experts (e.g., diffusion models), achieving strong multimodal performance. However, recent advanced methods such as BAGEL and LMFusion follow the Mixture-of-Transformers (MoT) paradigm, adopting a symmetric design that mirrors one expert to another for convenient initialization and fusion, which remains suboptimal due to inherent modality discrepancies. In this work, we propose HBridge, an asymmetric H-shaped architecture that enables heterogeneous experts to optimally leverage pretrained priors from their respective modality domains. Unlike prior dense fusion strategies that straightforwardly connect all layers between experts via shared attention, HBridge selectively bridges intermediate layers, reducing over 40% attention sharing, which improves efficiency and enhances generation quality. Shallow and deep layers, which capture modality-specific representations, are decoupled, while mid-layer bridging promotes semantic alignment. To further strengthen cross-modal coherence, we introduce semantic reconstruction tokens that explicitly guide the generative expert to reconstruct visual semantic tokens of the target image. Extensive experiments across multiple benchmarks demonstrate the effectiveness and superior performance of HBridge, establishing a new paradigm for unified multimodal generation.
- Abstract(参考訳): 最近の統合モデルでは、理解の専門家(例えばLLM)と生成の専門家(例えば拡散モデル)を統合し、強力なマルチモーダル性能を実現する。
しかしながら、最近のBAGELやLMFusionのような先進的な手法は、Mixture-of-Transformers (MoT)パラダイムに従っている。
本研究では,非対称なH字型アーキテクチャであるHBridgeを提案する。
専門家間のすべてのレイヤを簡単に接続する従来の密接な融合戦略とは異なり、HBridgeは中間層を選択的にブリッジし、40%以上のアテンション共有を削減し、効率を改善し、生成品質を向上させる。
モダリティ固有の表現をキャプチャする浅層と深層は分離され、中間層はセマンティックアライメントを促進する。
さらに,画像の視覚的意味的トークンを再構築するために,生成専門家を明示的に誘導する意味的再構成トークンを導入する。
複数のベンチマークにわたる大規模な実験は、HBridgeの有効性と優れた性能を示し、統一マルチモーダル生成のための新しいパラダイムを確立した。
関連論文リスト
- Monte Carlo Tree Diffusion with Multiple Experts for Protein Design [50.056670856059014]
マスク付き拡散モデルと木探索を統合したMCTD-MEを提案する。
自己回帰型プランナーとは異なり、MCTD-MEはロールアウトエンジンとして生物物理学的な拡散デノナイジングを使用している。
このフレームワークはモデルに依存しず、デノボタンパク質工学や多目的分子生成を含む逆フォールディングを越えて適用できる。
論文 参考訳(メタデータ) (2025-09-19T09:24:42Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Astrea: A MOE-based Visual Understanding Model with Progressive Alignment [10.943104653307294]
マルチモーダル理解において,Mixture-of-Experts (MoE)アーキテクチャに基づく視覚言語モデル (VLM) が重要なパラダイムとして登場した。
本稿では,プログレッシブ事前アライメントに基づく新しいマルチエキスパート協調型VLMアーキテクチャであるAstreaを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:44:52Z) - MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs [45.20965298945085]
本稿では,パラメータ干渉を緩和する手法,ルーティング,アーキテクチャの異なる専門家をマージするための新しい手法など,新たなMoEマージ手法を提案する。
複数の領域にわたる実験により,提案手法の有効性,微調整コストの低減,最先端手法の性能向上,MoEマージの適用性の向上が示された。
論文 参考訳(メタデータ) (2025-02-03T02:34:46Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
MoTE(Mixture of insightful Experts)は、推論チェーンとエキスパートミックスを組み合わせて自己調整を改善する新しいフレームワークである。
MoTEはモデルの安全性、脱獄耐性、過剰な拒否機能を大幅に改善し、OpenAIの最先端のo1モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。