論文の概要: Vision language models are unreliable at trivial spatial cognition
- arxiv url: http://arxiv.org/abs/2504.16061v1
- Date: Tue, 22 Apr 2025 17:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:00:24.563956
- Title: Vision language models are unreliable at trivial spatial cognition
- Title(参考訳): 視覚言語モデルは自明な空間認知において信頼できない
- Authors: Sangeet Khemlani, Tyler Tran, Nathaniel Gyory, Anthony M. Harrison, Wallace E. Lawson, Ravenna Thielstrom, Hunter Thompson, Taaren Singh, J. Gregory Trafton,
- Abstract要約: 視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
- 参考スコア(独自算出の注目度): 0.2902243522110345
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision language models (VLMs) are designed to extract relevant visuospatial information from images. Some research suggests that VLMs can exhibit humanlike scene understanding, while other investigations reveal difficulties in their ability to process relational information. To achieve widespread applicability, VLMs must perform reliably, yielding comparable competence across a wide variety of related tasks. We sought to test how reliable these architectures are at engaging in trivial spatial cognition, e.g., recognizing whether one object is left of another in an uncluttered scene. We developed a benchmark dataset -- TableTest -- whose images depict 3D scenes of objects arranged on a table, and used it to evaluate state-of-the-art VLMs. Results show that performance could be degraded by minor variations of prompts that use logically equivalent descriptions. These analyses suggest limitations in how VLMs may reason about spatial relations in real-world applications. They also reveal novel opportunities for bolstering image caption corpora for more efficient training and testing.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
いくつかの研究では、VLMは人間のようなシーン理解を示すことができるが、他の調査では関係情報を処理できないことが示されている。
幅広い適用性を達成するためには、VLMは確実に動作し、様々な関連するタスクに匹敵する能力を得る必要がある。
これらのアーキテクチャが空間認識にどの程度の信頼性があるか、例えば、散らばったシーンである物体が他の物体に残されているかどうかを認識できるかどうかを検証しようと試みた。
そこで我々は、テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し、それを最先端のVLMの評価に使用した。
結果は、論理的に等価な記述を使用するプロンプトの小さなバリエーションによって性能が劣化する可能性があることを示している。
これらの分析は、VLMが現実世界の応用における空間関係をどう考えるかの限界を示唆している。
また、より効率的なトレーニングとテストのために、画像キャプションコーパスを活性化する新たな機会も明らかにしている。
関連論文リスト
- Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。
テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。
VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Can Vision-Language Models be a Good Guesser? Exploring VLMs for Times
and Location Reasoning [23.33600235294496]
VLM(Vision-Language Models)は、人間としての常識的な知識を推論できると期待されている。
これにより、視覚的な手がかりに基づいて、Vision-Language Modelsは、時間と位置の推論において、人間の能力を達成し、さらに上回ることができるのだろうか、と疑問に思う。
本稿では,2段階の認識空間と推論空間探索タスクを提案する。
論文 参考訳(メタデータ) (2023-07-12T13:46:28Z) - VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。
視覚的」身体的知識を習得する能力を評価する。
以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。