論文の概要: ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2510.27492v1
- Date: Thu, 30 Oct 2025 17:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.124831
- Title: ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
- Title(参考訳): ThinkMorph: マルチモーダルインターリーブチェーンの創発的特性
- Authors: Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng,
- Abstract要約: 視覚的エンゲージメントの異なるタスクにまたがる24Kの高品質なインターリーブ付き推論トレースを微調整した統一モデルを構築する。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
目立たない視覚操作スキル、推論モード間の適応的な切り替え、テスト時間スケーリングの改善など、突発的なマルチモーダルインテリジェンスを示す。
- 参考スコア(独自算出の注目度): 76.95203056566191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning requires iterative coordination between language and vision, yet it remains unclear what constitutes a meaningful interleaved chain of thought. We posit that text and image thoughts should function as complementary, rather than isomorphic, modalities that mutually advance reasoning. Guided by this principle, we build ThinkMorph, a unified model fine-tuned on 24K high-quality interleaved reasoning traces spanning tasks with varying visual engagement. ThinkMorph learns to generate progressive text-image reasoning steps that concretely manipulate visual content while maintaining coherent verbal logic. It delivers large gains on vision-centric benchmarks (averaging 34.7% over the base model) and generalizes to out-of-domain tasks, matching or surpassing larger and proprietary VLMs. Beyond performance, ThinkMorph exhibits emergent multimodal intelligence, including unseen visual manipulation skills, adaptive switching between reasoning modes, and better test-time scaling through diversified multimodal thoughts.These findings suggest promising directions for characterizing the emergent capabilities of unified models for multimodal reasoning.
- Abstract(参考訳): マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々は、テキストとイメージの思考は、相互に推論を前進させる同型なモダリティではなく、相補的なものとして機能すべきであると仮定する。
この原理で導かれたThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる24Kの高品質なインターリーブ付き推論トレースに微調整された統一モデルである。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
ビジョン中心のベンチマーク(ベースモデルよりも34.7%)で大きく向上し、ドメイン外タスクに一般化し、より大きくプロプライエタリなVLMに適合または超えている。
また,ThinkMorphでは,視覚的操作能力の欠如,推論モードの適応的切り替え,多モード思考の多様化によるテスト時間スケーリングの改善など,創発的なマルチモーダルインテリジェンスを示す。
関連論文リスト
- BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning [11.952788515297913]
DeFactoは、正確な回答と忠実な推論を共同で実施する、反ファクト的推論フレームワークである。
本研究では,疑問関連証拠を自動的に局所化し,肯定的,反実的,ランダムな変種を構成するパイプラインを開発する。
多様なベンチマークの実験では、DeFactoは回答の正確さと忠実性の推論の両方を大幅に改善している。
論文 参考訳(メタデータ) (2025-09-25T08:58:10Z) - Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models [1.9950682531209158]
本稿では,連続思考のマルチモーダル連鎖(MCOUT)を提案する。
MCOUTはマルチモーダル推論を継続的に改善し,高いベースラインに対して最大8.23%の精度向上が得られることを示す。
以上の結果から,言語関連CoTを超えてLMMを推し進めるための有望な方向として,潜時的連続推論が注目されている。
論文 参考訳(メタデータ) (2025-08-18T02:50:20Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning [45.517215214938844]
チェーン・オブ・シークレット技術は、マルチモーダルタスクにおいてよく受け入れられている。
マルチモーダル表現学習におけるソフトプロンプトチューニングのためのAgoT(Aggregation-Graph-of-Thought)機構を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:39:44Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。