論文の概要: Probing Perceptual Constancy in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2502.10273v1
- Date: Fri, 14 Feb 2025 16:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:30.689435
- Title: Probing Perceptual Constancy in Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルにおける知覚的一貫性の探索
- Authors: Haoran Sun, Suyang Yu, Yijiang Li, Qingying Gao, Haiyun Lyu, Hokin Deng, Dezhi Luo,
- Abstract要約: 色,サイズ,形状の3領域にわたる253個の実験を用いて,33個の視覚言語モデル(VLM)を評価した。
VLMでは,色や大きさの相違が明らかで,形状の相違が顕著であった。
- 参考スコア(独自算出の注目度): 8.826002715344911
- License:
- Abstract: Perceptual constancy is the ability to maintain stable perceptions of objects despite changes in sensory input, such as variations in distance, angle, or lighting. This ability is crucial for recognizing visual information in a dynamic world, making it essential for Vision-Language Models (VLMs). However, whether VLMs are currently and theoretically capable of mastering this ability remains underexplored. In this study, we evaluated 33 VLMs using 253 experiments across three domains: color, size, and shape constancy. The experiments included single-image and video adaptations of classic cognitive tasks, along with novel tasks in in-the-wild conditions, to evaluate the models' recognition of object properties under varying conditions. We found significant variability in VLM performance, with models performance in shape constancy clearly dissociated from that of color and size constancy.
- Abstract(参考訳): 知覚的一貫性は、距離、角度、照明などの感覚入力の変化にもかかわらず、物体の安定した知覚を維持する能力である。
この能力は動的世界における視覚情報の認識に不可欠であり、視覚言語モデル(VLM)にとって不可欠である。
しかしながら、VLMが現在かつ理論的にこの能力を習得できるかどうかはまだ未定である。
本研究では,33個のVLMを,色,大きさ,形状の3領域にわたる253個の実験を用いて評価した。
実験には、古典的認知タスクの単一イメージとビデオ適応、および、様々な条件下でのモデルの物体特性の認識を評価する新しいタスクが含まれていた。
VLMでは,色や大きさの相違が明らかで,形状の相違が顕著であった。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations [15.035663040732798]
幻覚に対処するために視覚言語モデル(VLM)の内部表現について検討する。
我々は,VLMの内部画像表現を言語語彙に投影し,実物体の出力確率を幻覚的物体よりも高い信頼度で観測する。
モデルが潜在する表現を対象とする編集は、COCO2014データセットで最大25.7%の幻覚を減少させることができることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:59:57Z) - VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models [19.291697178628546]
ビジョン言語モデル(VLM)は、様々なベンチマークで有望な推論能力を示している。
本研究では,VLMがどのようにイメージを知覚するかを調べるために,視線検査プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-23T07:15:29Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - A General Protocol to Probe Large Vision Models for 3D Physical Understanding [84.54972153436466]
市販の大型視覚モデルの特徴が3Dシーンの物理的な「プロパティ」をエンコードするかどうかを評価するための一般的なプロトコルを提案する。
このプロトコルは、シーン幾何学、シーン素材、サポート関係、照明、ビュー依存尺度を含むプロパティに適用する。
安定拡散とDINOv2の特徴は,多くの特性の識別学習に有効であることがわかった。
論文 参考訳(メタデータ) (2023-10-10T17:59:28Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。
視覚的」身体的知識を習得する能力を評価する。
以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:06:25Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。