論文の概要: Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners
- arxiv url: http://arxiv.org/abs/2605.14709v1
- Date: Thu, 14 May 2026 11:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.793652
- Title: Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners
- Title(参考訳): Dual Bottlenecksを破る: 統一型マルチモーダルモデルを自己適応型インターリーブ型ビジュアル推論器に進化させる
- Authors: Qingyang Liu, Bingjie Gao, Canmiao Fu, Zhipeng Huang, Chen Li, Feng Wang, Shuochen Chang, Shaobo Wang, Yali Wang, Keming Ye, Jiangtong Li, Li Niu,
- Abstract要約: 統一モデルは単一のフレームワークにマルチモーダル理解と生成を統合する。
モデルがユーザの意図をキャプチャできるが、しばしばこの意味的知識を正確なピクセルレベルの操作に変換することができない。
本稿では,命令複雑性とモデル能力に基づく生成戦略を自律的に切り替える統合モデルを実現する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.02715256877424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent unified models integrate multimodal understanding and generation within a single framework. However, an "understanding-generation gap" persists, where models can capture user intent but often fail to translate this semantic knowledge into precise pixel-level manipulation. This gap results in two bottlenecks in anything-to-image task (X2I): the attention entanglement bottleneck, where blind planning struggles with complex prompts, and the visual refinement bottleneck, where unstructured feedback fails to correct imperfections efficiently. In this paper, we propose a novel framework that empowers unified models to autonomously switch between generation strategies based on instruction complexity and model capability. To achieve this, we construct a hierarchical data pipeline that constructs execution paths across three adaptive modes: direct generation for simple cases, self-reflection for quality refinement, and multi-step planning for decomposing complex scenarios. Building on this pipeline, we contribute a high-quality dataset with over 50,000 samples and implement a two-stage training strategy comprising SFT and RL. Specifically, we design step-wise reasoning rewards to ensure logical consistency and intra-group complexity penalty to prevent redundant computational overhead. Extensive experiments demonstrate that our method outperforms existing baselines on X2I, achieving superior generation fidelity among simple-to-complex instructions. The code is released at https://github.com/WeChatCV/Interleaved_Visual_Reasoner.
- Abstract(参考訳): 最近の統一モデルは、単一のフレームワーク内でマルチモーダル理解と生成を統合する。
しかし、モデルがユーザーの意図を捉えることはできるが、この意味的な知識を正確なピクセルレベルの操作に変換するのに失敗する「下記世代ギャップ」が持続する。
このギャップは、視覚的な計画が複雑なプロンプトに苦しむ注意の絡み合いボトルネックと、非構造的なフィードバックが効率よく不完全性を修正するのに失敗する視覚的改善ボトルネックという2つのボトルネックをもたらす。
本稿では,命令複雑性とモデル能力に基づく生成戦略を自律的に切り替える統合モデルを実現する新しいフレームワークを提案する。
これを実現するために,簡単なケースの直接生成,品質改善のための自己回帰,複雑なシナリオを分解するための多段階計画という,3つの適応モードにまたがる実行経路を構築する階層型データパイプラインを構築した。
このパイプライン上に構築され、50,000以上のサンプルで高品質なデータセットを提供し、SFTとRLからなる2段階のトレーニング戦略を実装します。
具体的には、論理的一貫性とグループ内複雑性のペナルティを確保するために、ステップワイズ推論報酬を設計し、冗長な計算オーバーヘッドを防止する。
大規模な実験により,本手法は既存のX2Iベースラインよりも優れており,単純な命令から複雑な命令に比較して優れた生成精度が得られた。
コードはhttps://github.com/WeChatCV/Interleaved_Visual_Reasonerで公開されている。
関連論文リスト
- LiteGUI: Distilling Compact GUI Agents with Reinforcement Learning [11.35341244051162]
現在のオンデバイスビジョン言語GUIエージェントは、モデル容量の制限によって制約される。
小型モデルの伝統的なスーパービジョンファインチューニングは、しばしば過度に適合し、破滅的な忘れ込みとポリシーの厳格さをもたらす。
小型モデルの性能を大幅に向上させる新しいSFTフリートレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-05-08T09:38:29Z) - CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models [23.357627415320025]
理解と生成を組み合わせたマルチモーダルモデルは、劣化した入力に自身の生成能力を利用することができない。
本稿では,2つの機能を3段階のプログレッシブステップで接続するフレームワークであるCLEARを紹介する。
実験により、CLEARはクリーンイメージ性能を維持しながら、劣化した入力に対するロバスト性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-04-06T15:54:00Z) - Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文 参考訳(メタデータ) (2026-03-25T18:31:39Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - Hybrid Dual-Path Linear Transformations for Efficient Transformer Architectures [0.0]
本稿では,アフィン変換を2つのトポロジカルな経路に分解するHybrid Dual-Path Linear (HDPL)演算子について紹介する。
FineWeb-Eduデータセットの実験では、HDPLアーキテクチャが標準のLlamaスタイルのベースラインより優れていることが示されている。
本稿では,トランスフォーマーのバックボーン内での確率的潜在空間の明示的な物質化が,重要な建築的余裕として果たす役割について論じる。
論文 参考訳(メタデータ) (2026-02-05T20:16:10Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。