論文の概要: Steering Visual Generation in Unified Multimodal Models with Understanding Supervision
- arxiv url: http://arxiv.org/abs/2605.05781v1
- Date: Thu, 07 May 2026 07:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.591219
- Title: Steering Visual Generation in Unified Multimodal Models with Understanding Supervision
- Title(参考訳): 主観的理解を伴う統一多モードモデルにおけるステアリング視覚生成
- Authors: Zeyu Liu, Zanlin Ni, Yang Yue, Cheng Da, Huan Yang, Di Zhang, Kun Gai, Gao Huang,
- Abstract要約: 統一マルチモーダルモデルは、理解と生成のギャップを埋めるために考えられている。
本稿では, 個別のタスクとしてだけでなく, 生成表現を制御するための直接監督信号として, より軽量なフレームワークである「理解指向ポストトレーニング(UNO)」を提案する。
- 参考スコア(独自算出の注目度): 42.765106450407814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal models are envisioned to bridge the gap between understanding and generation. Yet, to achieve competitive performance, state-of-the-art models adopt largely decoupled understanding and generation components. This design, while effective for individual tasks, weakens the connection required for mutual enhancement, leaving the potential synergy empirically uncertain. We propose to explicitly restore this synergy by introducing Understanding-Oriented Post-Training (UNO), a lightweight framework that treats understanding not only as a distinct task, but also a direct supervisory signal to steer generative representations. By incorporating objectives that encode semantic abstraction (captioning) and structural details (visual regression), we enable effective gradient flow from understanding to generation. Extensive experiments on image generation and editing demonstrate that understanding can serve as an effective catalyst for generation.
- Abstract(参考訳): 統一マルチモーダルモデルは、理解と生成のギャップを埋めるために考えられている。
しかし、競争性能を達成するために、最先端のモデルは、主に分離された理解と生成部品を採用する。
この設計は個々のタスクに有効であるが、相互強化に必要な接続を弱め、潜在的なシナジーは実証的に不確実である。
本稿では,このシナジーを,個別のタスクとしてだけでなく,生成表現を制御するための直接監督信号としても扱う軽量なフレームワークであるLearled-Oriented Post-Training (UNO)を導入することにより,明示的に復元することを提案する。
意味的抽象化(カプセル化)と構造的詳細(視覚的回帰)をエンコードする目的を組み込むことで、理解から生成までの効果的な勾配フローを可能にする。
画像生成と編集に関する大規模な実験は、理解が生成に有効な触媒となることを実証している。
関連論文リスト
- Free Lunch for Unified Multimodal Models: Enhancing Generation via Reflective Rectification with Inherent Understanding [20.397510070808238]
統一マルチモーダルモデル(UMM)は、視覚的理解と生成を単一の構造に統合することを目的としている。
UMMは、その理解能力が世代を著しく上回る、顕著な能力ミスマッチを示す。
そこで我々は,UniRect-CoT(UniRect-CoT)を提案する。
論文 参考訳(メタデータ) (2026-04-15T06:41:56Z) - InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing [87.5130783098133]
InternVL-Uは、マルチモーダル理解と推論機能を民主化する軽量な4BパラメータUMMである。
MLLM(Multimodal Large Language Model)と特殊なMMDiTベースのビジュアルジェネレーションヘッドを統合している。
BAGEL (14B) など,さまざまな生成タスクや編集タスクにおいて,3倍以上のスケールで統一ベースラインモデルを上回るパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-10T16:38:33Z) - Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking [154.2388970262703]
Unified Vision-Language Models (UVLM) は、単一のフレームワーク内での理解と生成の両方をサポートすることで、マルチモーダル学習を促進することを目的としている。
本稿では,解析処理と起案処理を交互に行う新たな思考パラダイムである,インターリーブド・アナライジング・ドレイティング問題解決ループ(AD-Loop)を紹介する。
テキスト思考を視覚的思考とインターリーブすることで、AD-Loopはモデルが理解と出力の両方を反復的に洗練し、真のシナジーを育むことができる。
論文 参考訳(メタデータ) (2026-02-24T23:26:09Z) - Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation [53.18286807225952]
統一マルチモーダルモデル(UMM)は、視覚的理解と生成の両方を単一のフレームワークに統合する。
単純なアーキテクチャに依存しないポストトレーニング手法であるUniMRG(Unified Multi-Representation Generation)を提案する。
提案手法は, 微粒化知覚を高め, 幻覚を低減し, 空間的理解を向上し, 同時に生成能力を向上する。
論文 参考訳(メタデータ) (2026-01-29T08:42:25Z) - Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models [23.128973540926552]
内因性再増殖は、モデルの理解を明確な生成的推論ステップに変換する。
評価精度,再現効率,生成品質において,SEERは一貫して最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:54:36Z) - Enhancing Semi-Supervised Multi-View Graph Convolutional Networks via Supervised Contrastive Learning and Self-Training [9.300953069946969]
グラフ畳み込みネットワーク(GCN)に基づく多視点学習は、異種視点から構造情報を統合するための強力なフレームワークを提供する。
既存のメソッドはビューをまたいだ補完的な情報を十分に活用することができず、最適化された特徴表現と限られたパフォーマンスに繋がる。
MV-SupGCNは,複数の相補的成分と明確なモチベーションと相互強化を統合した半教師付きGCNモデルである。
論文 参考訳(メタデータ) (2025-12-15T16:39:23Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Structure-Regularized Attention for Deformable Object Representation [17.120035855774344]
文脈依存のキャプチャは、ディープニューラルネットワークの表現力を改善するのに有用であることが証明されている。
自己注意や非局所操作といったグローバルコンテキストのモデリングに焦点をあてた近年のアプローチは、要素間の制約のないペアワイズ相互作用を可能にすることで、この目標を達成する。
本稿では,データに固有の構造的依存関係をモデル化することにより,コンテキスト利用の恩恵を受けることができる変形可能なオブジェクトの学習表現について考察する。
論文 参考訳(メタデータ) (2021-06-12T03:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。