論文の概要: From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2509.25373v1
- Date: Mon, 29 Sep 2025 18:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.265251
- Title: From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models
- Title(参考訳): 認識から認知へ:多モーダル大言語モデルにおける視覚・言語対話型推論に関する調査
- Authors: Chenyue Zhou, Mingxuan Wang, Yanbiao Ma, Chenxu Wu, Wanyi Chen, Zhe Qian, Xinyu Liu, Yiwei Zhang, Junhao Wang, Hengbo Xu, Fei Luo, Xiaohua Chen, Xiaoshuai Hao, Hehan Li, Andi Zhang, Wenxuan Wang, Lingling Li, Zhiwu Lu, Yang Lu, Yike Guo,
- Abstract要約: MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
- 参考スコア(独自算出の注目度): 59.85951092642609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) strive to achieve a profound, human-like understanding of and interaction with the physical world, but often exhibit a shallow and incoherent integration when acquiring information (Perception) and conducting reasoning (Cognition). This disconnect leads to a spectrum of reasoning failures, with hallucination being the most prominent. Collectively, these issues expose a fundamental challenge: the ability to process pixels does not yet confer the ability to construct a coherent, credible internal world model. To systematically dissect and address this challenge, this survey introduces a novel and unified analytical framework: ``From Perception to Cognition." We deconstruct the complex process of vision-language interactive understanding into two interdependent layers: Perception, the foundational ability to accurately extract visual information and achieve fine-grained alignment with textual instructions; and Cognition, the higher-order capability for proactive, multi-step, goal-oriented reasoning built upon this perceptual foundation, the core of which is the formation of a dynamic observe-think-verify reasoning loop. Guided by this framework, this paper systematically analyzes the key bottlenecks of current MLLMs at both layers. It surveys the landscape of cutting-edge methods designed to address these challenges, spanning from techniques that enhance low-level visual representations to those that improve high-level reasoning paradigms. Furthermore, we review critical benchmarks and delineate future research directions. This survey aims to provide the research community with a clear, structured perspective for understanding the intrinsic limitations of current MLLMs and to illuminate the path toward building next-generation models capable of deep reasoning and a genuine understanding of the world.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、物理的世界との深い人間的な理解と相互作用を達成するために努力するが、情報(知覚)を取得し、推論(認知)を行う際には、浅く不整合な統合を示すことが多い。
この解離は、幻覚がもっとも顕著な理由づけの失敗へと繋がる。
ピクセルを処理する能力はまだ、一貫性のある信頼性のある内部世界モデルを構築する能力を提供していない。
この課題を体系的に解き、解決するために、この調査では、新しく統一された分析フレームワークである ``From Perception to Cognitionを紹介した。
「我々は、視覚的対話的理解の複雑な過程を、2つの相互依存層に分解する:知覚、視覚的情報を正確に抽出し、テキストの指示ときめ細かなアライメントを達成できる基礎的能力、そして認知、この知覚的基礎の上に構築された積極的、多段階的、目標志向的推論のための高次能力、そしてその中核は動的観察的思考的推論ループの形成である。
本稿では,両層における現在のMLLMのボトルネックを系統的に解析する。
これらの課題に対処するために設計された最先端の手法の展望を調査し、低レベルの視覚的表現を向上する技術から高レベルの推論パラダイムを改善する技術にまたがる。
さらに、重要なベンチマークをレビューし、今後の研究の方向性を概説する。
本調査は、現在のMLLMの本質的な限界を理解するための明確で構造化された視点を研究コミュニティに提供することを目的としており、世界の深い推論と真に理解できる次世代モデルの構築への道筋を照らすことを目的としている。
関連論文リスト
- Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - Remote Sensing Image Intelligent Interpretation with the Language-Centered Perspective: Principles, Methods and Challenges [21.227376537555717]
このレビューは、視覚中心から言語中心のリモートセンシング解釈へのパラダイムシフトを提唱する。
本稿では,Large Language Models(LLM)を認知中心として扱う,リモートセンシング解釈のための言語中心のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-09T05:10:38Z) - Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models [10.1080193179562]
現在の理解モデルは「何」を認識するのに優れているが、因果推論や将来の予測のような高いレベルの認知タスクでは不足している。
本稿では,知識駆動型推論コアとして機能するLarge Language Model (LLM)を用いて,視覚の深層認識のための強力なビジョン基礎モデルと融合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T09:43:17Z) - Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。
人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。
大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (2025-05-08T03:35:23Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。