論文の概要: Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
- arxiv url: http://arxiv.org/abs/2505.03821v1
- Date: Sat, 03 May 2025 00:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.842492
- Title: Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
- Title(参考訳): 認識を超えて:視覚言語モデルを用いた視覚的視点の評価
- Authors: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński,
- Abstract要約: 本研究では,視覚言語モデルによる視覚的視点の把握能力について検討する。
提案手法では、1つのヒューマノイドのミニフィギュアを1つの物体とペアリングするシーンを慎重に制御する。
解析により,複雑な視覚タスクに必要な表面レベルの物体認識と深部空間的・視点的推論とのギャップが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the ability of Vision Language Models (VLMs) to perform visual perspective taking using a novel set of visual tasks inspired by established human tests. Our approach leverages carefully controlled scenes, in which a single humanoid minifigure is paired with a single object. By systematically varying spatial configurations - such as object position relative to the humanoid minifigure and the humanoid minifigure's orientation - and using both bird's-eye and surface-level views, we created 144 unique visual tasks. Each visual task is paired with a series of 7 diagnostic questions designed to assess three levels of visual cognition: scene understanding, spatial reasoning, and visual perspective taking. Our evaluation of several state-of-the-art models, including GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that while they excel in scene understanding, the performance declines significantly on spatial reasoning and further deteriorates on perspective-taking. Our analysis suggests a gap between surface-level object recognition and the deeper spatial and perspective reasoning required for complex visual tasks, pointing to the need for integrating explicit geometric representations and tailored training protocols in future VLM development.
- Abstract(参考訳): 本研究では,視覚言語モデル(VLM)による視覚的視点の計測能力について検討する。
提案手法では、1つのヒューマノイドのミニフィギュアを1つの物体とペアリングするシーンを慎重に制御する。
人型ミニフィギュアに対する対象位置や人型ミニフィギュアの向きなどの空間的配置を体系的に変化させることで、鳥の目と表面の両方の視界を用いて、144の視覚的タスクを作成しました。
それぞれの視覚的タスクは、シーン理解、空間的推論、視覚的視点抽出という3つのレベルの視覚的認知を評価するために設計された、一連の7つの診断的質問と組み合わせられる。
GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct, およびClaude Sonnetの変種を含むいくつかの最先端モデルの評価により, シーン理解において優れる一方で, 空間的推論において性能が著しく低下し, 視点抽出においてさらに劣化することが判明した。
我々の分析は、表面レベルの物体認識と複雑な視覚タスクに必要な空間的・視点的推論とのギャップを示唆しており、将来のVLM開発において、明示的な幾何学的表現と調整されたトレーニングプロトコルを統合する必要性を示唆している。
関連論文リスト
- VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding [41.59673370285659]
本稿では,3次元シーン理解のための様々な視覚符号化モデルを探索する総合的研究について述べる。
評価は,映像ベース,映像ベース,3Dファウンデーションモデルを含む,7つのビジョンファウンデーションエンコーダにまたがる。
DINOv2は優れた性能を示し、ビデオモデルはオブジェクトレベルのタスクに優れ、幾何学的拡散モデルはタスクに有益であり、言語予測モデルは言語関連のタスクに予期せぬ制限を示す。
論文 参考訳(メタデータ) (2024-09-05T17:59:56Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。
視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2022-11-28T15:06:07Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。