論文の概要: Semantic Generative Tuning for Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2605.18714v1
- Date: Mon, 18 May 2026 17:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.211072
- Title: Semantic Generative Tuning for Unified Multimodal Models
- Title(参考訳): 統一マルチモーダルモデルのセマンティック生成チューニング
- Authors: Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li,
- Abstract要約: 統一マルチモーダルモデル(UMM)は、単一のアーキテクチャ内で視覚的理解と視覚的生成を統合する。
訓練パラダイムは 独立して テキスト信号を通して 理解を最適化する 密集したピクセルの目的を通して 生成する
本研究は,UMMの分離を橋渡しするための生成プロキシとして階層的視覚タスクを定式化する,生成後学習に関する最初の体系的な研究である。
- 参考スコア(独自算出の注目度): 62.18894352635965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing training paradigms independently optimize understanding via sparse text signals and generation through dense pixel objectives. Such a decoupled strategy yields misaligned representation spaces, isolating visual understanding from generation and hindering their mutual reinforcement. This work presents the first systematic investigation into generative post-training, where we formulate hierarchical visual tasks as generative proxies to bridge the isolation in UMMs. Our empirical investigation reveals that high-level semantic tasks, particularly image segmentation, serve as optimal proxies. Unlike low-level tasks that distract models with texture details, segmentation provides structural semantics that significantly enhance both vision-centric perception and generative layout fidelity. Building upon these insights, we introduce Semantic Generative Tuning (SGT), a novel paradigm that leverages segmentation as a generative proxy to align and synergize multimodal capabilities. Mechanistic analyses further demonstrate that SGT fundamentally improves feature linear separability and optimizes visual-textual attention allocation pattern. Extensive evaluations show that SGT consistently improves both multimodal comprehension and generative fidelity across mainstream benchmarks. Our code is available on the https://song2yu.github.io/SGT/.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、単一のアーキテクチャ内で視覚的理解と視覚的生成を統合する。
しかし、一般的な訓練パラダイムは、スパーステキスト信号による理解と、密度の高い画素目標による生成を独立に最適化する。
このような分離された戦略は、不整合表現空間をもたらし、生成から視覚的理解を分離し、相互強化を妨げる。
本研究は,UMMの分離を橋渡しするための生成プロキシとして階層的視覚タスクを定式化する,生成後学習に関する最初の体系的な研究である。
実験により,高レベルのセマンティックタスク,特に画像セグメンテーションが最適なプロキシとして機能していることが明らかになった。
テクスチャの細部でモデルを混乱させる低レベルのタスクとは異なり、セグメンテーションは視覚中心の知覚と生成的レイアウトの忠実さの両方を著しく向上させる構造的意味論を提供する。
これらの知見に基づいて,セグメンテーションを生成プロキシとして活用し,マルチモーダル機能の整合と相乗化を行う新しいパラダイムであるセマンティックジェネレーティブチューニング(SGT)を紹介した。
さらに、SGTは特徴線形分離性を根本的に改善し、視覚的・テクスト的アテンションアロケーションパターンを最適化することを示した。
広範囲な評価により、SGTは主流ベンチマークにおけるマルチモーダル理解と生成忠実度の両方を一貫して改善することが示された。
私たちのコードはhttps://song2yu.github.io/SGT/で利用可能です。
関連論文リスト
- UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation [53.18286807225952]
統一マルチモーダルモデル(UMM)は、視覚的理解と生成の両方を単一のフレームワークに統合する。
単純なアーキテクチャに依存しないポストトレーニング手法であるUniMRG(Unified Multi-Representation Generation)を提案する。
提案手法は, 微粒化知覚を高め, 幻覚を低減し, 空間的理解を向上し, 同時に生成能力を向上する。
論文 参考訳(メタデータ) (2026-01-29T08:42:25Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Alignment Unlocks Complementarity: A Framework for Multiview Circuit Representation Learning [12.528410977116438]
ブール回路上のマルチビュー学習は、グラフベースの異なる表現が相補的な構造的および意味的な情報を提供するので、大きな可能性を秘めている。
MixGateは、モデルに共有された関数対応表現空間を教える、原則付きトレーニングカリキュラム上に構築されたフレームワークである。
我々のアライメントファースト戦略は、マスク付きモデリングを非効率な手法から強力なパフォーマンスドライバに変換することを示す。
論文 参考訳(メタデータ) (2025-09-25T10:12:04Z) - MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces [23.447713697204225]
MAGEは、革新的なアライメント機構を通じて視覚とテキストの意味空間をブリッジする新しいフレームワークである。
我々は、クロスエントロピーと平均二乗誤差を組み合わせたトレーニング戦略を採用し、アライメント効果を著しく向上させる。
提案するマルチモーダル大規模モデルアーキテクチャであるMAGEは,様々な評価ベンチマークにおける類似の手法と比較して,性能が大幅に向上した。
論文 参考訳(メタデータ) (2025-07-29T12:17:46Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。