論文の概要: DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.24165v1
- Date: Tue, 30 Dec 2025 11:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.373549
- Title: DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
- Title(参考訳): DiffThinker: 拡散モデルによる生成的マルチモーダル推論を目指して
- Authors: Zefeng He, Xiaoye Qu, Yafu Li, Tong Zhu, Siyuan Huang, Yu Cheng,
- Abstract要約: 生成的マルチモーダル推論フレームワークであるDiffThinkerを紹介する。
視覚中心のタスクにおいて、より優れた論理的一貫性と空間的精度が得られることを示す。
- 参考スコア(独自算出の注目度): 40.38351627330629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent Multimodal Large Language Models (MLLMs) have attained significant strides in multimodal reasoning, their reasoning processes remain predominantly text-centric, leading to suboptimal performance in complex long-horizon, vision-centric tasks. In this paper, we establish a novel Generative Multimodal Reasoning paradigm and introduce DiffThinker, a diffusion-based reasoning framework. Conceptually, DiffThinker reformulates multimodal reasoning as a native generative image-to-image task, achieving superior logical consistency and spatial precision in vision-centric tasks. We perform a systematic comparison between DiffThinker and MLLMs, providing the first in-depth investigation into the intrinsic characteristics of this paradigm, revealing four core properties: efficiency, controllability, native parallelism, and collaboration. Extensive experiments across four domains (sequential planning, combinatorial optimization, constraint satisfaction, and spatial configuration) demonstrate that DiffThinker significantly outperforms leading closed source models including GPT-5 (+314.2\%) and Gemini-3-Flash (+111.6\%), as well as the fine-tuned Qwen3-VL-32B baseline (+39.0\%), highlighting generative multimodal reasoning as a promising approach for vision-centric reasoning.
- Abstract(参考訳): 最近のMLLM(Multimodal Large Language Models)は、多モーダル推論において大きな進歩を遂げているが、それらの推論プロセスはテキスト中心のままであり、複雑な長期的視覚中心のタスクにおいて、最適以下のパフォーマンスをもたらす。
本稿では,新しい生成的マルチモーダル推論パラダイムを構築し,拡散に基づく推論フレームワークであるDiffThinkerを紹介する。
概念的には、DiffThinkerは、視覚中心のタスクにおいて、より優れた論理的一貫性と空間的精度を達成するために、ネイティブな生成的イメージ・イメージタスクとしてのマルチモーダル推論を再構成する。
DiffThinker と MLLM の体系的比較を行い,本パラダイムの本質的な特性を詳細に調査し,効率性,制御性,ネイティブ並列性,協調性という4つのコア特性を明らかにした。
GPT-5(+314.2\%)やGemini-3-Flash(+111.6\%)、細調整されたQwen3-VL-32Bベースライン(+39.0\%)など、4つの領域にわたる大規模な実験(逐次的計画、組合せ最適化、制約満足度、空間構成)により、DiffThinkerはGPT-5(+314.2\%)やGemini-3-Flash(+111.6\%)といった主要なクローズドソースモデルよりも大幅に優れており、視覚中心の推論の有望なアプローチとして生成的マルチモーダル推論を強調している。
関連論文リスト
- ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-10-30T17:51:38Z) - GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking [35.14983424309319]
GThinkerは、一般的なシナリオ、数学、科学にまたがるマルチモーダル推論に優れた新しい推論MLLMである。
GThinker氏はCue-Rethinkingを紹介した。Cue-Rethinkingは視覚的手がかりを推論し、矛盾を解決するために反復的にこれらの手がかりを再解釈する柔軟な推論パターンである。
トレーニングを支援するため,GThinker-11Kの構築を行った。
論文 参考訳(メタデータ) (2025-06-01T16:28:26Z) - Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models [45.15161506154318]
Infi-MMRは、マルチモーダル小言語モデルの推論能力を体系的に解放するフレームワークである。
第1フェーズであるFoundational Reasoning Activationは、高品質なテキスト推論データセットを活用して、モデルの論理推論能力を活性化し、強化する。
第2のフェーズであるクロスモーダル推論適応は、キャプション拡張されたマルチモーダルデータを使用して、推論スキルをマルチモーダルコンテキストにプログレッシブに転送する。
第3フェーズであるMultimodal Reasoning Enhancementでは、言語バイアスを緩和し、堅牢なクロスモーダル推論を促進するために、キュレートされたキャプションフリーなマルチモーダルデータを採用している。
論文 参考訳(メタデータ) (2025-05-29T04:51:56Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。
我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。