論文の概要: See, Symbolize, Act: Grounding VLMs with Spatial Representations for Better Gameplay
- arxiv url: http://arxiv.org/abs/2603.11601v1
- Date: Thu, 12 Mar 2026 06:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.931901
- Title: See, Symbolize, Act: Grounding VLMs with Spatial Representations for Better Gameplay
- Title(参考訳): See, Symbolize, Act: Grounding VLMs with Space Representations for Better Gameplay
- Authors: Ashish Baghel, Paras Chopra,
- Abstract要約: VLM(Vision-Language Models)は、視覚的なシーンを記述するのに優れるが、知覚を正確な接地行動に変換するのに苦労する。
視覚的フレームとシーンのシンボリック表現の両方でVLMを提供することで,インタラクティブ環境におけるVLMの性能が向上するかどうかを検討する。
Atariゲーム、VizDoom、AI2-THORの3つの最先端VLMを評価し、フレームのみ、フレームを自己抽出シンボル、フレームを接地トラスシンボル、シンボルのみパイプラインと比較した。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) excel at describing visual scenes, yet struggle to translate perception into precise, grounded actions. We investigate whether providing VLMs with both the visual frame and the symbolic representation of the scene can improve their performance in interactive environments. We evaluate three state-of-the-art VLMs across Atari games, VizDoom, and AI2-THOR, comparing frame-only, frame with self-extracted symbols, frame with ground-truth symbols, and symbol-only pipelines. Our results indicate that all models benefit when the symbolic information is accurate. However, when VLMs extract symbols themselves, performance becomes dependent on model capability and scene complexity. We further investigate how accurately VLMs can extract symbolic information from visual inputs and how noise in these symbols affects decision-making and gameplay performance. Our findings reveal that symbolic grounding is beneficial in VLMs only when symbol extraction is reliable, and highlight perception quality as a central bottleneck for future VLM-based agents.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的なシーンを記述するのに優れるが、知覚を正確な接地行動に変換するのに苦労する。
視覚的フレームとシーンのシンボリック表現の両方でVLMを提供することで,インタラクティブ環境におけるVLMの性能が向上するかどうかを検討する。
Atariゲーム、VizDoom、AI2-THORの3つの最先端VLMを評価し、フレームのみ、フレームを自己抽出シンボル、フレームを接地トラスシンボル、シンボルのみパイプラインと比較した。
その結果,記号情報が正確であれば,すべてのモデルが有用であることが示唆された。
しかし、VLMがシンボルを抽出すると、性能はモデル能力とシーンの複雑さに依存する。
さらに,VLMが視覚入力からシンボル情報を抽出し,これらのシンボルのノイズが意思決定やゲームプレイのパフォーマンスに与える影響について検討する。
本研究は,シンボル抽出が信頼性の高い場合にのみ,VLMにおいてシンボルの接地が有用であることを明らかにし,将来のVLMエージェントの中枢ボトルネックとして認識品質を強調した。
関連論文リスト
- Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文 参考訳(メタデータ) (2025-04-22T17:38:01Z) - Can Large Language Models Understand Symbolic Graphics Programs? [136.5639211254501]
シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
これにより、視覚エンコーダを使わずに、画像や3次元幾何学に関する意味的な疑問に答えるLLMの能力をテストすることができる。
我々は、最小限の努力で手続き的に構築されたシンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
我々は,プログラムの視覚的アウトプットを判断する能力を評価するため,商用およびオープンソースLCMをベンチマークで評価した。
論文 参考訳(メタデータ) (2024-08-15T17:59:57Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions [9.190831897944957]
視覚言語モデル(VLM)の表現は、しばしば形状のような視覚的属性に基づいている。
本稿では,VLM にとって重要なテキスト特徴を特徴付ける新しい手法である Extract and Explore (EX2) を提案する。
この結果から,EX2は強化学習を用いて,大規模言語モデルとVLMの好みを一致させ,VLMにとって重要な特徴を組み込んだ記述を生成する。
論文 参考訳(メタデータ) (2024-03-25T06:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。