論文の概要: A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs
- arxiv url: http://arxiv.org/abs/2501.13620v3
- Date: Mon, 21 Apr 2025 11:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 21:38:34.591197
- Title: A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs
- Title(参考訳): VLMにおける知覚推論インタフェースの検証のための認知パラダイムアプローチ
- Authors: Mohit Vaishnav, Tanel Tammet,
- Abstract要約: 本稿では、視覚言語モデル(VLM)における知覚推論インタフェースを識別するために、ボンガード問題(BP)を用いた構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
私たちのフレームワークは貴重な診断ツールを提供し、AIでより堅牢で人間らしい視覚知性を達成するために、視覚処理の忠実性を高める必要性を強調しています。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A fundamental challenge in artificial intelligence involves understanding the cognitive processes underlying visual reasoning in sophisticated models like Vision-Language Models (VLMs). How do these models integrate visual perception with abstract thought, especially when reasoning across multiple images? Drawing inspiration from cognitive science, this paper introduces a structured evaluation framework using Bongard Problems (BPs) - a classic test of visual abstraction to dissect the perception-reasoning interface in VLMs. We propose three distinct evaluation paradigms, mirroring human problem-solving strategies: Direct Visual Rule Learning (DVRL; holistic processing), Deductive Rule Learning (DRL; rule extraction and application), and Componential Analysis (CA; analytical decomposition via textual descriptions). These paradigms allow us to systematically vary the cognitive load and probe specific processing stages. Notably, the CA paradigm enables the evaluation of multi-image reasoning even in VLMs architecturally limited to single images and facilitates the isolation of reasoning capabilities from perceptual limitations by controlling the descriptive input. Ablation studies further confirm that reasoning abilities improve significantly when perceptual challenges are mitigated. Our framework provides a valuable diagnostic tool, highlighting the need to enhance visual processing fidelity for achieving more robust and human-like visual intelligence in AI.
- Abstract(参考訳): 人工知能における根本的な課題は、視覚言語モデル(VLM)のような洗練されたモデルにおいて、視覚推論の基礎となる認知プロセスを理解することである。
これらのモデルは、視覚知覚と抽象的思考をどのように統合するか。
本稿では,認知科学からインスピレーションを得て,VLMの知覚推論インタフェースを識別するための視覚的抽象化の古典的テストであるBongard Problems (BPs) を用いた構造化評価フレームワークを提案する。
直視ルール学習(DVRL)、帰納的ルール学習(DRL、ルール抽出と適用)、成分分析(CA、テキスト記述による分析分解)の3つの異なる評価パラダイムを提案する。
これらのパラダイムは、認知的負荷を体系的に変化させ、特定の処理段階を探索することを可能にする。
特に、CAパラダイムは、アーキテクチャ上単一の画像に制限されたVLMであっても、マルチイメージ推論の評価を可能にし、記述入力を制御することにより、推論能力の知覚的制限からの分離を容易にする。
アブレーション研究は、知覚的課題が緩和されたときに推論能力が著しく改善することを確認する。
私たちのフレームワークは貴重な診断ツールを提供し、AIでより堅牢で人間らしい視覚知性を達成するために、視覚処理の忠実性を高める必要性を強調しています。
関連論文リスト
- Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis [19.032828729570458]
我々は、人間の視覚知覚における複雑さに関連する心理学と認知科学の確立した原理と説明を用いる。
本研究の目的は、視覚知覚に関連する様々な説明可能性原理をMLLMにベンチマークすることである。
論文 参考訳(メタデータ) (2025-04-16T22:14:27Z) - Visual Language Models show widespread visual deficits on neuropsychological tests [0.0]
神経心理学のツールキットを用いて3つの最先端ビジュアル言語モデル(VLM)の能力を評価する。
臨床的に有意と思われる低位・中位の視覚能力に広範な欠陥がみられた。
これらの選択的欠陥は、検証されたテストバッテリーを通してプロファイルされ、人間には明示的な訓練を必要としない基礎的な視覚概念を発達させることなく、人工知能が複雑な物体認識を達成できることを示唆している。
論文 参考訳(メタデータ) (2025-04-15T01:04:56Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。
高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。
LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文 参考訳(メタデータ) (2024-10-07T05:07:01Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ? [5.076961098583674]
我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、新しい敵対的データセットを導入する。
私たちの精神物理学的な研究は、急速に続く複数の推論の存在を示しています。
エラーの解析は、視覚処理の早期停止は、関連する情報が欠落する可能性があることを示している。
論文 参考訳(メタデータ) (2024-06-11T05:50:34Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。