論文の概要: Architecture Decoupling Is Not All You Need For Unified Multimodal Model
- arxiv url: http://arxiv.org/abs/2511.22663v1
- Date: Thu, 27 Nov 2025 17:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.671169
- Title: Architecture Decoupling Is Not All You Need For Unified Multimodal Model
- Title(参考訳): 統一マルチモーダルモデルに必要なのはアーキテクチャの分離だけではない
- Authors: Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li,
- Abstract要約: 本稿では,トレーニング中のタスク-特定マルチモーダルインタラクションパターンを明示的に学習する,意図的インタラクションアライメント(AIA)の損失を提案する。
AIAは、横断的な注意パターンを洗練するだけでなく、生成と理解の両方のパフォーマンスも向上させる。
- 参考スコア(独自算出の注目度): 64.19284951218098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models for image generation and understanding represent a significant step toward AGI and have attracted widespread attention from researchers. The main challenge of this task lies in the difficulty in establishing an optimal training paradigm due to inherent conflicting targets in understanding and generation tasks. To alleviate these conflicts and pursue higher performance, many researchers adopt varying degrees of model decoupling (e.g., Double image encoders, MOE/MOT architecture, or frozen MLLM). However, excessive model decoupling can lead to the loss of interleave generation ability, undermining the original intent of unified models. In this work, we aim to explore how to mitigate task conflicts without resorting to model decoupling. Firstly, we analyze why decoupling alleviates conflicts by studying the cross-modal attention behavior of models. We observe that model decoupling essentially drives models toward task-specific multimodal interaction patterns, as seen in Qwen-VL and HunyuanImage, and that the more thorough the decoupling, the more consistent the behavior becomes. Motivated by this observation, we propose Attention Interaction Alignment (AIA) loss, which explicitly learns Task-Specific multimodal interaction patterns during training. To demonstrate the generalizability of our AIA loss, we apply it to Emu3 and Janus-Pro during SFT and post-training stage respectively. Without bells and whistles, AIA not only refines cross-modal attention patterns, but also boosts both generation and understanding performance.
- Abstract(参考訳): 画像生成と理解のための統一マルチモーダルモデルは、AGIへの重要な一歩であり、研究者から広く注目を集めている。
このタスクの主な課題は、理解および生成タスクにおいて本質的に矛盾する目標のため、最適なトレーニングパラダイムを確立することの難しさにある。
これらの対立を緩和し、より高い性能を追求するために、多くの研究者は様々なモデルのデカップリング(Double Image Encoder、MOE/MOTアーキテクチャ、凍結MLLM)を採用する。
しかし、過剰なモデルデカップリングは、インターリーブ生成能力の喪失を招き、統一モデルの本来の意図を損なう可能性がある。
本研究では,モデルデカップリングに頼らずにタスクの衝突を軽減する方法について検討する。
まず、モデルの相互注意行動を研究することによって、分離が衝突を緩和する理由を分析する。
モデルデカップリングは,Qwen-VL や Hunyuan Image に見られるような,タスク固有のマルチモーダルインタラクションパターンへとモデルを動かす。
本研究の目的は,トレーニング中のタスク-特定マルチモーダルインタラクションパターンを明示的に学習する,意図的インタラクションアライメント(AIA)損失を提案することである。
AIA損失の一般化可能性を示すため,SFTおよび後訓練段階においてEmu3およびJanus-Proに適用した。
ベルとホイッスルがなければ、AIAは横断的な注意パターンを洗練するだけでなく、生成と理解のパフォーマンスも向上する。
関連論文リスト
- UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation [39.921363034430875]
統一された画像理解と生成は、マルチモーダル人工知能において有望なパラダイムとして浮上している。
本研究では,タスク固有の専門家モデルの理解と生成のためのモダリティアライメント行動について検討する。
タスクの干渉を避けるため,タスク固有の分岐を深いレイヤに導入しながら,タスクのタスク表現学習のための浅いレイヤを共有する,新しいY字型アーキテクチャであるUniForkを紹介した。
論文 参考訳(メタデータ) (2025-06-20T17:52:31Z) - Resolving Task Objective Conflicts in Unified Model via Task-Aware Mixture-of-Experts [11.790264535536965]
マルチモーダル・大規模言語モデル(MLLM)は、理解タスクと生成タスクを単一のフレームワークに統合する。
固有のタスク目的 理解における高レベルのセマンティックな抽象化と、生成時のきめ細かい詳細保存との間の対立は、重大な課題である。
タスク目的の衝突を解決するために,ARの内部コンポーネントを分離する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-04T05:44:21Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。