論文の概要: Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models
- arxiv url: http://arxiv.org/abs/2409.12969v1
- Date: Mon, 2 Sep 2024 16:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:36:59.679967
- Title: Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models
- Title(参考訳): 目を通して見る:視覚言語モデルを用いた視覚的視点の評価
- Authors: Gracjan Góral, Alicja Ziarko, Michal Nauman, Maciej Wołczyk,
- Abstract要約: 視覚的視点取り(VPT)は、個人が他人の行動を予測できるようにする。
最近登場したビジョン言語モデル(VLM)がそのような能力を持っているかどうかは不明だ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual perspective-taking (VPT), the ability to understand the viewpoint of another person, enables individuals to anticipate the actions of other people. For instance, a driver can avoid accidents by assessing what pedestrians see. Humans typically develop this skill in early childhood, but it remains unclear whether the recently emerging Vision Language Models (VLMs) possess such capability. Furthermore, as these models are increasingly deployed in the real world, understanding how they perform nuanced tasks like VPT becomes essential. In this paper, we introduce two manually curated datasets, Isle-Bricks and Isle-Dots for testing VPT skills, and we use it to evaluate 12 commonly used VLMs. Across all models, we observe a significant performance drop when perspective-taking is required. Additionally, we find performance in object detection tasks is poorly correlated with performance on VPT tasks, suggesting that the existing benchmarks might not be sufficient to understand this problem. The code and the dataset will be available at https://sites.google.com/view/perspective-taking
- Abstract(参考訳): 視覚的視点取り(VPT)は、他人の視点を理解する能力であり、個人が他人の行動を予測することを可能にする。
例えば、運転手は歩行者が見ているものを評価することで事故を避けることができる。
人間は通常、このスキルを幼少期に開発するが、最近登場したビジョン言語モデル(VLM)がそのような能力を持っているかどうかは不明だ。
さらに、これらのモデルが現実世界にますます展開されるにつれて、VPTのようなニュアンスなタスクをどのように実行するかを理解することが不可欠です。
本稿では、VPTスキルをテストするために、Isle-BricksとIsle-Dotsという2つの手動でキュレートしたデータセットを導入し、それを12のVLMの評価に利用した。
すべてのモデルにおいて、視点を取る必要がある場合、大幅なパフォーマンス低下が観測される。
さらに、オブジェクト検出タスクのパフォーマンスはVPTタスクのパフォーマンスと相関が低く、既存のベンチマークではこの問題を理解するのに十分でない可能性があることを示唆している。
コードとデータセットはhttps://sites.google.com/view/perspective-takeで確認できる。
関連論文リスト
- Right this way: Can VLMs Guide Us to See More to Answer Questions? [11.693356269848517]
質問応答シナリオでは、人間が利用可能な情報が十分かどうかを評価し、必要であれば追加情報を求める。
対照的に、視覚言語モデル(VLM)は、情報の十分性を評価することなく、直接的かつ一発的な応答を生成するのが一般的である。
本研究は,VLMにおける情報アセスメントと取得のギャップを狭める可能性を示し,その性能を人間に近づけるものである。
論文 参考訳(メタデータ) (2024-11-01T06:43:54Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks [59.49639580525051]
マルチモーダルモデルはビジョン・アンド・ランゲージ(V+L)タスクの解決を目的としている。
現在の研究は、テキスタイルの事前訓練されたVEが汎用エンコーダとして機能すると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるかどうかを,分析に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-12T16:31:39Z) - VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。
視覚的」身体的知識を習得する能力を評価する。
以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:06:25Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。