論文の概要: [De|Re]constructing VLMs' Reasoning in Counting
- arxiv url: http://arxiv.org/abs/2510.19555v1
- Date: Wed, 22 Oct 2025 13:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.820213
- Title: [De|Re]constructing VLMs' Reasoning in Counting
- Title(参考訳): 【De|Re】カウントにおけるVLMの推論の構築
- Authors: Simone Alghisi, Gabriel Roccabruna, Massimo Rizzoli, Seyed Mahed Mousavi, Giuseppe Riccardi,
- Abstract要約: 制御された実験条件下での計数作業における7つの最先端ビジョンランゲージモデル(VLM)の推論技術について検討した。
レイヤワイズ解析により、エラーは最終層表現の出力空間への誤ったマッピングによるものであることが明らかになった。
対象とするトレーニングでは,出力層のみの微調整により,最大21%の精度が向上した。
- 参考スコア(独自算出の注目度): 2.1856941852799134
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Models (VLMs) have recently gained attention due to their competitive performance on multiple downstream tasks, achieved by following user-input instructions. However, VLMs still exhibit several limitations in visual reasoning, such as difficulties in identifying relations (e.g., spatial, temporal, and among objects), understanding temporal sequences (e.g., frames), and counting objects. In this work, we go beyond score-level benchmark evaluations of VLMs by investigating the underlying causes of their failures and proposing a targeted approach to improve their reasoning capabilities. We study the reasoning skills of seven state-of-the-art VLMs in the counting task under controlled experimental conditions. Our experiments show that VLMs are highly sensitive to the number and type of objects, their spatial arrangement, and the co-occurrence of distractors. A layer-wise analysis reveals that errors are due to incorrect mapping of the last-layer representation into the output space. Our targeted training shows that fine-tuning just the output layer improves accuracy by up to 21%. We corroborate these findings by achieving consistent improvements on real-world datasets.
- Abstract(参考訳): VLM(Vision-Language Models)は、最近、ユーザインプット命令に従うことで達成された、複数の下流タスクにおける競合性能によって注目されている。
しかしながら、VLMは、関連性(例えば、空間的、時間的、オブジェクト間の関係)の同定の困難、時間的シーケンス(例えば、フレーム)の理解、オブジェクトのカウントなど、視覚的推論にいくつかの制限を課している。
本研究では,VLMの故障の原因を調査し,その推論能力を改善するためのアプローチを提案することで,スコアレベルのベンチマーク評価を超越した評価を行う。
制御された実験条件下での計数作業における7つの最先端VLMの推論技術について検討した。
実験の結果, VLMは物体の数や種類, 空間配置, トラクタの共起に非常に敏感であることがわかった。
レイヤワイズ解析により、エラーは最終層表現の出力空間への誤ったマッピングによるものであることが明らかになった。
対象とするトレーニングでは,出力層のみの微調整により,最大21%の精度が向上した。
実世界のデータセットに一貫した改善を施すことで、これらの発見を裏付ける。
関連論文リスト
- Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文 参考訳(メタデータ) (2025-04-22T17:38:01Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [13.768090541138571]
視覚言語モデル(VLM)はオブジェクトの識別と記述に優れるが、しばしば空間的推論では失敗する。
視覚トークンの埋め込みは、テキストトークンよりもはるかに大きな規範を持っている。
視覚トークンとシステムが注目を惹きつけることを明らかにするツール。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.34964016971127]
iVISPARは、視覚言語モデル(VLM)がエージェントとして働く空間的推論能力を評価するために設計されたインタラクティブなベンチマークである。
このベンチマークは、ビジュアル3D、2D、テキストベースの入力モダリティをサポートし、VLMの計画と推論スキルの包括的な評価を可能にする。
その結果、VLMは3次元やテキストベースの設定に比べて2次元のタスクでは優れていたが、複雑な空間構成に苦慮し、常に人間のパフォーマンスに欠けていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。