論文の概要: How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2503.22093v1
- Date: Fri, 28 Mar 2025 02:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:25.325065
- Title: How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark
- Title(参考訳): バイソン・ランゲージモデルが人間の意図をいかに理解できるか : オープンな心的質問評価理論のベンチマーク
- Authors: Ximing Wen, Mallika Mainali, Anik Sen,
- Abstract要約: 視覚言語モデル(VLM)は、視覚質問応答(VQA)タスクにおいて強力な推論能力を示している。
しかし、人間の意図、信念、その他の精神状態を正確に推測するなど、心の理論(ToM)を遂行する能力は未熟である。
- 参考スコア(独自算出の注目度): 0.8820880683910832
- License:
- Abstract: Vision Language Models (VLMs) have demonstrated strong reasoning capabilities in Visual Question Answering (VQA) tasks; However, their ability to perform Theory of Mind (ToM) tasks such as accurately inferring human intentions, beliefs, and other mental states remains underexplored. In this work, we propose an open-ended question framework to comprehensively evaluate VLMs' performance across diverse categories of ToM tasks. We curated and annotated a benchmark dataset composed of 30 images. We then assessed the performance of four VLMs of varying sizes on this dataset. Our experimental results show that the GPT-4 model outperformed all others, with only one smaller model, GPT-4o-mini, achieving comparable performance. Additionally, we observed that VLMs often struggle to accurately infer intentions in complex scenarios such as bullying or cheating. Moreover, our findings also reveal that smaller models can sometimes infer correct intentions despite relying on incorrect visual cues.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚質問回答(VQA)タスクにおいて強力な推論能力を示してきたが、人間の意図、信念、その他の精神状態の正確な推測など、心の理論(ToM)タスクを実行する能力は未熟である。
本研究では,様々なToMタスクのカテゴリにまたがって,VLMの性能を総合的に評価するオープンエンド質問フレームワークを提案する。
30枚の画像からなるベンチマークデータセットをキュレートし、注釈を付けました。
そして、このデータセット上で、異なるサイズの4つのVLMの性能を評価した。
実験の結果,GPT-4モデルは他のモデルよりも優れており,GPT-4o-miniは1つの小さなモデルのみが同等の性能を発揮することがわかった。
さらに、VLMはいじめや不正行為といった複雑なシナリオにおいて、意図を正確に推測するのに苦労することが多いこともわかりました。
さらに, 誤視的手がかりに頼らずに, 小さなモデルで正しい意図を推測できることも明らかとなった。
関連論文リスト
- Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - Benchmarking Mental State Representations in Language Models [9.318796743761224]
モデルの内部的な精神状態の表現に関する研究は依然として限られている。
最近の研究は、LMが自分自身や他人の信念を表現できることを示すのに、プローブを用いている。
モデルサイズが異なる様々なLMタイプを用いた広範囲なベンチマークを報告する。
我々は,素早い変化が心的タスクの理論における探索的パフォーマンスにどのように影響するかを初めて研究する。
論文 参考訳(メタデータ) (2024-06-25T12:51:06Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。
T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。
ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文 参考訳(メタデータ) (2023-10-04T06:47:58Z) - ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks for Exploring Theory of Mind [3.9599054392856483]
ToMChallengesは,Sally-Anne と Smarties のテストに基づいて,多種多様なタスクを用いて,心の理論を総合的に評価するためのデータセットである。
評価結果と誤差分析により,LLMはプロンプトやタスク間で不整合な挙動を示す。
論文 参考訳(メタデータ) (2023-05-24T11:54:07Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。