論文の概要: Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation
- arxiv url: http://arxiv.org/abs/2504.17207v1
- Date: Thu, 24 Apr 2025 02:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.227435
- Title: Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation
- Title(参考訳): メンタルイメージシミュレーションによる視覚言語モデルの視点認識推論
- Authors: Phillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung,
- Abstract要約: 本稿では,視覚言語モデル(VLM)における視点認識推論のためのフレームワークについて,メンタルイメージシミュレーションを用いて述べる。
そこで我々は、APC(Abstract Perspective Change)という視点認識推論のためのフレームワークを提案する。
合成および実画像のベンチマーク実験は、様々なVLMと比較して、我々のフレームワークによる視点認識推論の大幅な改善が示されている。
- 参考スコア(独自算出の注目度): 14.157948867532832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for perspective-aware reasoning in vision-language models (VLMs) through mental imagery simulation. Perspective-taking, the ability to perceive an environment or situation from an alternative viewpoint, is a key benchmark for human-level visual understanding, essential for environmental interaction and collaboration with autonomous agents. Despite advancements in spatial reasoning within VLMs, recent research has shown that modern VLMs significantly lack perspective-aware reasoning capabilities and exhibit a strong bias toward egocentric interpretations. To bridge the gap between VLMs and human perception, we focus on the role of mental imagery, where humans perceive the world through abstracted representations that facilitate perspective shifts. Motivated by this, we propose a framework for perspective-aware reasoning, named Abstract Perspective Change (APC), that effectively leverages vision foundation models, such as object detection, segmentation, and orientation estimation, to construct scene abstractions and enable perspective transformations. Our experiments on synthetic and real-image benchmarks, compared with various VLMs, demonstrate significant improvements in perspective-aware reasoning with our framework, further outperforming fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)における視点認識推論のためのフレームワークについて,メンタルイメージシミュレーションを用いて述べる。
パースペクティブテイキングは、別の視点から環境や状況を知覚する能力であり、人間レベルの視覚的理解のための重要なベンチマークであり、環境の相互作用や自律的なエージェントとの協調に不可欠である。
VLMにおける空間推論の進歩にもかかわらず、最近の研究により、現代のVLMは視点認識推論能力が著しく欠如しており、エゴセントリックな解釈に対する強いバイアスを示すことが示されている。
VLMと人間の知覚のギャップを埋めるために、人間は視点シフトを促進する抽象表現を通して世界を知覚する心的イメージの役割に焦点を当てる。
そこで本研究では,オブジェクト検出やセグメンテーション,方向推定といった視覚基盤モデルを効果的に活用し,シーンの抽象化を構築し,視点変換を可能にする,視点認識型推論フレームワークであるAbstract Perspective Change(APC)を提案する。
合成および実画像のベンチマーク実験は、様々なVLMと比較して、我々のフレームワークによる視点認識推論の大幅な改善、微調整空間推論モデルおよび新規ビュー合成に基づくアプローチよりも優れた性能を示した。
関連論文リスト
- Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。
本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文 参考訳(メタデータ) (2025-04-17T17:38:18Z) - Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis [19.032828729570458]
我々は、人間の視覚知覚における複雑さに関連する心理学と認知科学の確立した原理と説明を用いる。
本研究の目的は、視覚知覚に関連する様々な説明可能性原理をMLLMにベンチマークすることである。
論文 参考訳(メタデータ) (2025-04-16T22:14:27Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。
人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Learning Interpretable Logic Rules from Deep Vision Models [6.854329442341952]
VisionLogicは、深いビジョンモデルから解釈可能なロジックルールを抽出するフレームワークである。
単一の画像に対する局所的な説明と、特定のクラスに対するグローバルな説明を提供する。
ヴィジュアル論理はまた、述語によって符号化された視覚概念の研究を促進する。
論文 参考訳(メタデータ) (2025-03-13T17:04:04Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では、視覚言語モデル(VLM)における知覚推論インタフェースを識別するために、ボンガード問題(BP)を用いた構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
私たちのフレームワークは貴重な診断ツールを提供し、AIでより堅牢で人間らしい視覚知性を達成するために、視覚処理の忠実性を高める必要性を強調しています。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Human-like conceptual representations emerge from language prediction [72.5875173689788]
大規模言語モデル(LLMs)は、言語データに対する次世代の予測を通じてのみ訓練され、顕著な人間的な振る舞いを示す。
これらのモデルは、人間に似た概念を発達させ、もしそうなら、そのような概念はどのように表現され、組織化されるのか?
以上の結果から,LLMは言語記述から他の概念に関する文脈的手がかりに関して柔軟に概念を導出できることが示唆された。
これらの結果は、構造化された人間のような概念表現が、現実世界の接地なしに言語予測から自然に現れることを証明している。
論文 参考訳(メタデータ) (2025-01-21T23:54:17Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ? [5.076961098583674]
我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、新しい敵対的データセットを導入する。
私たちの精神物理学的な研究は、急速に続く複数の推論の存在を示しています。
エラーの解析は、視覚処理の早期停止は、関連する情報が欠落する可能性があることを示している。
論文 参考訳(メタデータ) (2024-06-11T05:50:34Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。