論文の概要: Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
- arxiv url: http://arxiv.org/abs/2506.23918v2
- Date: Tue, 01 Jul 2025 03:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 11:48:10.259374
- Title: Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
- Title(参考訳): マルチモーダル推論のためのイメージを考える:基礎, 方法, 未来フロンティア
- Authors: Zhaochen Su, Peng Xia, Hangyu Guo, Zhenhua Liu, Yan Ma, Xiaoye Qu, Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung,
- Abstract要約: 同様の進化がAIで展開され、単にイメージについて考えるモデルから、イメージについて真に考えるモデルへのパラダイムシフトを象徴している。
この新たなパラダイムは、視覚情報を思考過程の中間ステップとして活用するモデルによって特徴づけられ、視覚を受動的に操作可能な認知ワークスペースに変換する。
- 参考スコア(独自算出の注目度): 90.4459196223986
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent progress in multimodal reasoning has been significantly advanced by textual Chain-of-Thought (CoT), a paradigm where models conduct reasoning within language. This text-centric approach, however, treats vision as a static, initial context, creating a fundamental "semantic gap" between rich perceptual data and discrete symbolic thought. Human cognition often transcends language, utilizing vision as a dynamic mental sketchpad. A similar evolution is now unfolding in AI, marking a fundamental paradigm shift from models that merely think about images to those that can truly think with images. This emerging paradigm is characterized by models leveraging visual information as intermediate steps in their thought process, transforming vision from a passive input into a dynamic, manipulable cognitive workspace. In this survey, we chart this evolution of intelligence along a trajectory of increasing cognitive autonomy, which unfolds across three key stages: from external tool exploration, through programmatic manipulation, to intrinsic imagination. To structure this rapidly evolving field, our survey makes four key contributions. (1) We establish the foundational principles of the think with image paradigm and its three-stage framework. (2) We provide a comprehensive review of the core methods that characterize each stage of this roadmap. (3) We analyze the critical landscape of evaluation benchmarks and transformative applications. (4) We identify significant challenges and outline promising future directions. By providing this structured overview, we aim to offer a clear roadmap for future research towards more powerful and human-aligned multimodal AI.
- Abstract(参考訳): マルチモーダル推論の最近の進歩は、モデルが言語内で推論を行うパラダイムであるテキスト・チェーン・オブ・ソート(CoT)によって著しく進歩している。
しかし、このテキスト中心のアプローチは、視覚を静的で初期的な文脈として扱い、豊かな知覚データと離散的な象徴的思考の間に基本的な「意味的ギャップ」を生み出す。
人間の認知はしばしば言語を超越し、視覚を動的精神スケッチパッドとして利用する。
同様の進化がAIで展開され、単にイメージについて考えるモデルから、イメージについて真に考えるモデルへの根本的なパラダイムシフトを象徴している。
この新たなパラダイムは、視覚情報を思考過程の中間ステップとして活用するモデルによって特徴づけられ、視覚を受動的に操作可能な認知ワークスペースに変換する。
本調査では,認知の自律性向上の軌跡として,外部ツール探索からプログラム操作,本質的な想像力に至るまで,3つの重要な段階に展開する知能の進化を図示する。
この急速に発展する分野を構築するために、我々の調査は4つの重要な貢献をしている。
1)イメージパラダイムと3段階の枠組みによる思考の基礎原理を確立する。
2) このロードマップの各段階を特徴付けるコアメソッドの包括的なレビューを行う。
(3)評価ベンチマークと変換応用のクリティカルランドスケープを解析する。
(4)重要な課題を特定し、将来的な方向性を概説する。
この構造化された概要を提供することで、より強力で人間に準拠したマルチモーダルAIに向けた将来の研究の明確なロードマップを提供することを目指している。
関連論文リスト
- Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Thinking with Generated Images [30.28526622443551]
我々は,大規模マルチモーダルモデル(LMM)が視覚的推論にどのように関与するかを変換する,新しいパラダイムであるThinking with Generated Imagesを紹介する。
我々のアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴づける視覚的想像力や反復的な洗練に関わり得ることを可能にする。
論文 参考訳(メタデータ) (2025-05-28T16:12:45Z) - Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought [72.93910800095757]
大規模視覚言語モデル(LVLM)の性能と解釈性を改善するマルチモーダル・チェーン・オブ・シント(MCoT)
我々は,MCoTフォーマットによらず,画像情報を推論プロセスに伝達する視覚的思考を取り入れることで,MCoTがLVLMを促進することを示す。
また、視覚的思考の内部的な性質を探求し、視覚的思考が入力画像と深いトランスフォーマー層への推論の間の仲介として機能することを発見した。
論文 参考訳(メタデータ) (2025-05-21T13:29:58Z) - Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation [14.157948867532832]
本稿では,視覚言語モデル(VLM)における視点認識推論のためのフレームワークについて,メンタルイメージシミュレーションを用いて述べる。
そこで我々は、APC(Abstract Perspective Change)という視点認識推論のためのフレームワークを提案する。
合成および実画像のベンチマーク実験は、様々なVLMと比較して、我々のフレームワークによる視点認識推論の大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-04-24T02:41:34Z) - CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation [12.008690947774015]
マルチイメージ理解のための「スロー思考」を模倣した多段階推論フレームワークを提案する。
重要な視覚領域トークンを利用したインターリーブマルチモーダル多段階推論チェーンの構築
推論中にモデル推論能力を拡張するテスト時メモリ拡張モジュールの導入。
論文 参考訳(メタデータ) (2025-03-07T09:13:17Z) - Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。
視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。
本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文 参考訳(メタデータ) (2024-11-08T17:15:12Z) - Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。
また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文 参考訳(メタデータ) (2022-06-20T13:01:46Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - New Ideas and Trends in Deep Multimodal Content Understanding: A Review [24.576001583494445]
本調査の焦点は、画像とテキストの2つのモーダルな深層学習の分析である。
本稿では, 自動エンコーダ, 生成逆数ネットなどを含む最近の多モード深層モデルと構造について検討する。
論文 参考訳(メタデータ) (2020-10-16T06:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。