論文の概要: UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2506.17202v1
- Date: Fri, 20 Jun 2025 17:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.580408
- Title: UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation
- Title(参考訳): UniFork: 統一マルチモーダル理解と生成のためのモダリティアライメントの探索
- Authors: Teng Li, Quanfeng Lu, Lirui Zhao, Hao Li, Xizhou Zhu, Yu Qiao, Jun Zhang, Wenqi Shao,
- Abstract要約: 統一された画像理解と生成は、マルチモーダル人工知能において有望なパラダイムとして浮上している。
本研究では,タスク固有の専門家モデルの理解と生成のためのモダリティアライメント行動について検討する。
タスクの干渉を避けるため,タスク固有の分岐を深いレイヤに導入しながら,タスクのタスク表現学習のための浅いレイヤを共有する,新しいY字型アーキテクチャであるUniForkを紹介した。
- 参考スコア(独自算出の注目度): 39.921363034430875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified image understanding and generation has emerged as a promising paradigm in multimodal artificial intelligence. Despite recent progress, the optimal architectural design for such unified models remains an open challenge. In this work, we start by analyzing the modality alignment behaviors of task-specific expert models for understanding and generation, as well as current unified models. Our analysis reveals a crucial observation: understanding tasks benefit from a progressively increasing modality alignment across network depth, which helps build up semantic information for better comprehension; In contrast, generation tasks follow a different trend: modality alignment increases in the early layers but decreases in the deep layers to recover spatial details. These divergent alignment patterns create a fundamental conflict in fully shared Transformer backbones, where a uniform representational flow often leads to performance compromises across two tasks. Motivated by this finding, we introduce UniFork, a novel Y-shaped architecture that shares the shallow layers for cross-task representation learning, while employing task-specific branches in deeper layers to avoid task interference. This design effectively balances shared learning and task specialization. Through extensive ablation experiments, we demonstrate that Unifork consistently outperforms conventional fully shared Transformer architectures, and achieves performance on par with or better than task-specific models.
- Abstract(参考訳): 統一された画像理解と生成は、マルチモーダル人工知能において有望なパラダイムとして浮上している。
近年の進歩にもかかわらず、このような統一モデルのための最適なアーキテクチャ設計は未解決の課題である。
本研究は,タスク固有のエキスパートモデルの,理解と生成のためのモダリティアライメント行動と,現在の統一モデルの解析から始める。
解析の結果,ネットワーク深度を横断するモーダリティアライメントが徐々に増加し,より理解しやすいセマンティック情報の構築に役立っていることが明らかとなった。
これらの発散したアライメントパターンは、完全に共有されたトランスフォーマーのバックボーンにおいて、基本的なコンフリクトを生み出します。
この発見に動機づけられたUniForkは、タスクの干渉を避けるために、タスク固有の分岐を深いレイヤに導入しながら、クロスタスク表現学習のための浅いレイヤを共有する、新しいY字型アーキテクチャである。
この設計は、共有学習とタスクの専門化を効果的にバランスさせる。
ワイドアブレーション実験により、Uniforkは従来の完全共有トランスフォーマーアーキテクチャより一貫して優れており、タスク固有モデルと同等以上の性能が得られることを示した。
関連論文リスト
- Resolving Task Objective Conflicts in Unified Multimodal Understanding and Generation via Task-Aware Mixture-of-Experts [11.307588007047407]
マルチモーダル・大規模言語モデル(MLLM)は、理解タスクと生成タスクを単一のフレームワークに統合する。
固有のタスク目的 理解における高レベルのセマンティックな抽象化と、生成時のきめ細かい詳細保存との間の対立は、重大な課題である。
タスク目的の衝突を解決するために,ARの内部コンポーネントを分離する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-04T05:44:21Z) - Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。
本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文 参考訳(メタデータ) (2025-05-29T03:40:21Z) - VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文 参考訳(メタデータ) (2025-04-10T17:59:42Z) - A representational framework for learning and encoding structurally enriched trajectories in complex agent environments [1.904851064759821]
人工知能エージェントが最適な決定を行い、それらを異なるドメインやタスクに一般化する能力は、複雑なシナリオで妥協される。
この問題に対処する方法の1つは、世界の効率的な表現を学習することと、エージェントのアクションがそれらにどのように影響するかに焦点を当てている。
本稿では,エージェントのオントロジーを強化し,タスク実行のより微妙なビューを提供するために,トラジェクトリの伝統化を拡張することを提案する。
論文 参考訳(メタデータ) (2025-03-17T14:04:27Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Interpretable deformable image registration: A geometric deep learning perspective [9.13809412085203]
解釈可能な登録フレームワークを設計するための理論的基盤を提示する。
粗い方法で変換を洗練するエンドツーエンドのプロセスを定式化します。
我々は、最先端のアプローチよりもパフォーマンスの指標が大幅に改善されたと結論付けている。
論文 参考訳(メタデータ) (2024-12-17T19:47:10Z) - A System for Morphology-Task Generalization via Unified Representation
and Behavior Distillation [28.041319351752485]
本研究では,多量の熟練した行動データを蒸留することにより,様々な形態のエージェントを操り,様々なタスクをこなす単一ポリシーを学習する方法について検討する。
本稿では, 観測, 行動, 目標/タスクを統一されたグラフ表現で扱うモルフォロジー・タスクグラフを紹介する。
また,多種多様な形態とタスクの組み合わせの手続き的生成を支援する高速な大規模行動生成のためのMxT-Benchを開発した。
論文 参考訳(メタデータ) (2022-11-25T18:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。