Fugu-MT 論文翻訳(概要): Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

論文の概要: Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

arxiv url: http://arxiv.org/abs/2506.23918v3
Date: Thu, 03 Jul 2025 16:49:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-04 13:25:27.626348
Title: Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
Title（参考訳）: マルチモーダル推論のためのイメージを考える:基礎, 方法, 未来フロンティア
Authors: Zhaochen Su, Peng Xia, Hangyu Guo, Zhenhua Liu, Yan Ma, Xiaoye Qu, Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung,
Abstract要約: 同様の進化がAIで展開され、単にイメージについて考えるモデルから、イメージについて真に考えるモデルへのパラダイムシフトを象徴している。この新たなパラダイムは、視覚情報を思考過程の中間ステップとして活用するモデルによって特徴づけられ、視覚を受動的に操作可能な認知ワークスペースに変換する。
参考スコア（独自算出の注目度）: 90.4459196223986
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent progress in multimodal reasoning has been significantly advanced by textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning within language. This text-centric approach, however, treats vision as a static, initial context, creating a fundamental "semantic gap" between rich perceptual data and discrete symbolic thought. Human cognition often transcends language, utilizing vision as a dynamic mental sketchpad. A similar evolution is now unfolding in AI, marking a fundamental paradigm shift from models that merely think about images to those that can truly think with images. This emerging paradigm is characterized by models leveraging visual information as intermediate steps in their thought process, transforming vision from a passive input into a dynamic, manipulable cognitive workspace. In this survey, we chart this evolution of intelligence along a trajectory of increasing cognitive autonomy, which unfolds across three key stages: from external tool exploration, through programmatic manipulation, to intrinsic imagination. To structure this rapidly evolving field, our survey makes four key contributions. (1) We establish the foundational principles of the think with image paradigm and its three-stage framework. (2) We provide a comprehensive review of the core methods that characterize each stage of this roadmap. (3) We analyze the critical landscape of evaluation benchmarks and transformative applications. (4) We identify significant challenges and outline promising future directions. By providing this structured overview, we aim to offer a clear roadmap for future research towards more powerful and human-aligned multimodal AI.
Abstract（参考訳）: マルチモーダル推論の最近の進歩は、モデルが言語内で推論を行うパラダイムであるテキスト・チェーン・オブ・ソート(CoT)によって著しく進歩している。しかし、このテキスト中心のアプローチは、視覚を静的で初期的な文脈として扱い、豊かな知覚データと離散的な象徴的思考の間に基本的な「意味的ギャップ」を生み出す。人間の認知はしばしば言語を超越し、視覚を動的精神スケッチパッドとして利用する。同様の進化がAIで展開され、単にイメージについて考えるモデルから、イメージについて真に考えるモデルへの根本的なパラダイムシフトを象徴している。この新たなパラダイムは、視覚情報を思考過程の中間ステップとして活用するモデルによって特徴づけられ、視覚を受動的に操作可能な認知ワークスペースに変換する。本調査では,認知の自律性向上の軌跡として,外部ツール探索からプログラム操作,本質的な想像力に至るまで,3つの重要な段階に展開する知能の進化を図示する。この急速に発展する分野を構築するために、我々の調査は4つの重要な貢献をしている。 1)イメージパラダイムと3段階の枠組みによる思考の基礎原理を確立する。 2) このロードマップの各段階を特徴付けるコアメソッドの包括的なレビューを行う。 (3)評価ベンチマークと変換応用のクリティカルランドスケープを解析する。 (4)重要な課題を特定し、将来的な方向性を概説する。この構造化された概要を提供することで、より強力で人間に準拠したマルチモーダルAIに向けた将来の研究の明確なロードマップを提供することを目指している。

関連論文リスト

MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文参考訳（メタデータ） (2026-02-02T18:49:06Z)
Mimic Human Cognition, Master Multi-Image Reasoning: A Meta-Action Framework for Enhanced Visual Understanding [25.81793866721208]
本稿では,マルチイメージ推論を5つの構造化メタアクション(Global, Focus, Hint, Think, Answer)に分解する手法を提案する。我々のモデルはMUIRおよびMVMathベンチマークでGPT-4oを上回り、特にビデオ理解ベンチマークで特別なビデオ推論モデルよりも優れている。
論文参考訳（メタデータ） (2026-01-12T08:15:36Z)
Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。既存の方法は、人間のような抽象的な視覚的思考に欠ける。 Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文参考訳（メタデータ） (2025-11-26T13:46:39Z)
V-Thinker: Interactive Thinking with Images [22.55079103487787]
視覚中心推論の最近の進歩は、大型マルチモーダルモデル(LMM)のための有望な「シンキング・ウィズ・イメージ」パラダイムを探求しているエンド・ツー・エンドの強化学習を通じてインタラクティブな視覚中心の思考を可能にする汎用マルチモーダル推論アシスタントであるV-Thinkerを提案する。 V-Thinkerは、一般的な推論シナリオと対話的な推論シナリオの両方において、強力なLMMベースのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-11-06T15:32:29Z)
ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。 ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文参考訳（メタデータ） (2025-10-30T17:51:38Z)
From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文参考訳（メタデータ） (2025-09-29T18:25:40Z)
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文参考訳（メタデータ） (2025-06-11T17:41:50Z)
Thinking with Generated Images [30.28526622443551]
我々は,大規模マルチモーダルモデル(LMM)が視覚的推論にどのように関与するかを変換する,新しいパラダイムであるThinking with Generated Imagesを紹介する。我々のアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴づける視覚的想像力や反復的な洗練に関わり得ることを可能にする。
論文参考訳（メタデータ） (2025-05-28T16:12:45Z)
Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought [72.93910800095757]
大規模視覚言語モデル(LVLM)の性能と解釈性を改善するマルチモーダル・チェーン・オブ・シント(MCoT) 我々は,MCoTフォーマットによらず,画像情報を推論プロセスに伝達する視覚的思考を取り入れることで,MCoTがLVLMを促進することを示す。また、視覚的思考の内部的な性質を探求し、視覚的思考が入力画像と深いトランスフォーマー層への推論の間の仲介として機能することを発見した。
論文参考訳（メタデータ） (2025-05-21T13:29:58Z)
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities [22.476740954286836]
今後の研究を導くための総合的な調査を行う。既存の統一モデルについてレビューし、これらを3つの主要なアーキテクチャパラダイムに分類する。トークン化戦略,クロスモーダルアテンション,データなど,この新興分野に直面する重要な課題について論じる。
論文参考訳（メタデータ） (2025-05-05T11:18:03Z)
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation [14.157948867532832]
本稿では,視覚言語モデル(VLM)における視点認識推論のためのフレームワークについて,メンタルイメージシミュレーションを用いて述べる。そこで我々は、APC(Abstract Perspective Change)という視点認識推論のためのフレームワークを提案する。合成および実画像のベンチマーク実験は、様々なVLMと比較して、我々のフレームワークによる視点認識推論の大幅な改善が示されている。
論文参考訳（メタデータ） (2025-04-24T02:41:34Z)
CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation [12.008690947774015]
マルチイメージ理解のための「スロー思考」を模倣した多段階推論フレームワークを提案する。重要な視覚領域トークンを利用したインターリーブマルチモーダル多段階推論チェーンの構築推論中にモデル推論能力を拡張するテスト時メモリ拡張モジュールの導入。
論文参考訳（メタデータ） (2025-03-07T09:13:17Z)
Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文参考訳（メタデータ） (2024-11-08T17:15:12Z)
Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文参考訳（メタデータ） (2024-10-24T17:58:05Z)
Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文参考訳（メタデータ） (2022-06-20T13:01:46Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)
New Ideas and Trends in Deep Multimodal Content Understanding: A Review [24.576001583494445]
本調査の焦点は、画像とテキストの2つのモーダルな深層学習の分析である。本稿では, 自動エンコーダ, 生成逆数ネットなどを含む最近の多モード深層モデルと構造について検討する。
論文参考訳（メタデータ） (2020-10-16T06:50:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。