論文の概要: Can Vision Language Models Infer Human Gaze Direction? A Controlled Study
- arxiv url: http://arxiv.org/abs/2506.05412v1
- Date: Wed, 04 Jun 2025 17:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.138072
- Title: Can Vision Language Models Infer Human Gaze Direction? A Controlled Study
- Title(参考訳): 視覚言語モデルは人間の視線方向を推定できるか? : 制御された研究
- Authors: Zory Zhang, Pinyuan Feng, Bingyang Wang, Tianwei Zhao, Suyang Yu, Qingying Gao, Hokin Deng, Ziqiao Ma, Yijiang Li, Dezhi Luo,
- Abstract要約: 迷路参照推論は、自然とAIの相互作用を支える心の理論の重要な構成要素である。
111個の視覚言語モデル (VLM) を用いて, 難易度と変動度を操作した写真を用いて, このスキルを評価した。
その結果、111個のVLMのうち94個のVLMはランダムな推測よりもうまく機能せず、人間は近いシーリング精度を達成できた。
- 参考スコア(独自算出の注目度): 1.7047772174109688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gaze-referential inference--the ability to infer what others are looking at--is a critical component of a theory of mind that underpins natural human-AI interaction. In a controlled study, we evaluated this skill across 111 Vision Language Models (VLMs) using photos taken with manipulated difficulty and variability, comparing performance with that of human participants (N = 65), and analyzed behaviors using mixed-effects models. We found that 94 of the 111 VLMs failed to do better than random guessing, while humans achieved near-ceiling accuracy. VLMs even respond with each choice almost equally frequently. Are they randomly guessing? Although most VLMs struggle, when we zoom in on five of the top-tier VLMs with above-chance performance, we find that their performance declined with increasing task difficulty but varied only slightly across different prompts and scene objects. These behavioral features cannot be explained by considering them as random guessers. Instead, they likely use a combination of heuristics and guessing such that their performance is subject to the task difficulty but robust to perceptual variations. This suggests that VLMs, lacking gaze inference capability, have yet to become technologies that can naturally interact with humans, but the potential remains.
- Abstract(参考訳): 迷路参照推論(Gaze-Referential Inference) - 他人が見ているものを推測する能力 - は、自然な人間とAIの相互作用を支える心の理論の重要な構成要素である。
本研究では,視覚言語モデル(VLM)111種を対象に,難易度と変動度を操作した写真を用いて評価し,その性能を人体(N=65)と比較し,混合効果モデルを用いた行動分析を行った。
その結果、111個のVLMのうち94個のVLMはランダムな推測よりもうまく機能せず、人間は近いシーリング精度を達成できた。
VLMはそれぞれの選択にほぼ同じ頻度で反応する。
彼らはランダムに推測していますか。
ほとんどのVLMは苦労するが、上位5階層のVLMを上向きにズームすると、タスクの難易度が増すにつれて性能が低下するが、異なるプロンプトやシーンオブジェクト間ではわずかにしか変化しないことがわかった。
これらの振舞いの特徴は、それらをランダムな推測者として考えると説明できない。
その代わり、彼らはヒューリスティックスの組み合わせを使用し、そのパフォーマンスがタスクの難易度に左右されるが、知覚的なバリエーションに頑健である、と推測する。
このことは、視線推論能力に欠けるVLMが、人間と自然に対話できる技術にはなっていないことを示唆している。
関連論文リスト
- Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces [90.96731971685115]
VeBrainは、現実世界における認識、推論、制御のための統一されたフレームワークである。
VeBrainは、ロボット制御を2次元視覚空間における一般的なテキストベースのMLLMタスクに再構成する。
VeBrainは、既存の方法と比較して、強い適応性、柔軟性、および構成能力を示している。
論文 参考訳(メタデータ) (2025-05-30T18:00:34Z) - ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation [12.178807390472693]
VLM(Vision-Language Models)は、人工知能とロボティクスに革命をもたらした。
ロボット操作では、VLMは主に高レベルプランナーとして使用されるが、最近の研究は、その低レベル推論能力についても研究している。
VLMの低レベルロボット操作推論能力を評価するために,新しいベンチマークManipBenchを提案する。
論文 参考訳(メタデータ) (2025-05-14T18:01:00Z) - LLM Agents Display Human Biases but Exhibit Distinct Learning Patterns [0.0]
経験的タスクから判断する文脈におけるLarge Language Models (LLMs)の選択パターンについて検討する。
その結果,LLMは人間に類似した行動バイアスを呈することがわかった。
しかし、選択パターンをより微妙に分析すると、これは非常に異なる理由で起こることが分かる。
論文 参考訳(メタデータ) (2025-03-13T10:47:03Z) - Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-10T18:09:36Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。