論文の概要: PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.08340v1
- Date: Thu, 09 Apr 2026 15:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.983063
- Title: PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models
- Title(参考訳): PokeGym:ビジョンランゲージモデルのためのビジュアル駆動型ロングホライゾンベンチマーク
- Authors: Ruizhi Zhang, Ye Huang, Yuangang Pan, Chuanfu Shen, Zhilin Liu, Ting Xie, Wen Li, Lixin Duan,
- Abstract要約: 我々はPokeGymを紹介した。Pokemon Legends: Z-Aは視覚的に複雑な3DオープンワールドであるRole-Playing Gameである。
PokeGymは厳格なコードレベルの分離を強制する:エージェントは生のRGB観測のみで動作するが、独立した評価器はメモリスキャンによって成功を検証する。
このベンチマークは、ナビゲーション、インタラクション、混合シナリオにまたがる30のタスク(30-220ステップ)と、3つの命令の粒度(Visual-Guided、Step-Guided、Goal-Only)で構成され、視覚的な接地、セマンティック推論、自律的な探索機能を体系的に分解する。
- 参考スコア(独自算出の注目度): 33.89873575295867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language Models (VLMs) have achieved remarkable progress in static visual understanding, their deployment in complex 3D embodied environments remains severely limited. Existing benchmarks suffer from four critical deficiencies: (1) passive perception tasks circumvent interactive dynamics; (2) simplified 2D environments fail to assess depth perception; (3) privileged state leakage bypasses genuine visual processing; and (4) human evaluation is prohibitively expensive and unscalable. We introduce PokeGym, a visually-driven long-horizon benchmark instantiated within Pokemon Legends: Z-A, a visually complex 3D open-world Role-Playing Game. PokeGym enforces strict code-level isolation: agents operate solely on raw RGB observations while an independent evaluator verifies success via memory scanning, ensuring pure vision-based decision-making and automated, scalable assessment. The benchmark comprises 30 tasks (30-220 steps) spanning navigation, interaction, and mixed scenarios, with three instruction granularities (Visual-Guided, Step-Guided, Goal-Only) to systematically deconstruct visual grounding, semantic reasoning, and autonomous exploration capabilities. Our evaluation reveals a key limitation of current VLMs: physical deadlock recovery, rather than high-level planning, constitutes the primary bottleneck, with deadlocks showing a strong negative correlation with task success. Furthermore, we uncover a metacognitive divergence: weaker models predominantly suffer from Unaware Deadlocks (oblivious to entrapment), whereas advanced models exhibit Aware Deadlocks (recognizing entrapment yet failing to recover). These findings highlight the need to integrate explicit spatial intuition into VLM architectures. The code and benchmark will be available on GitHub.
- Abstract(参考訳): VLM(Vision-Language Models)は静的な視覚的理解において顕著な進歩を遂げているが、複雑な3Dエンボディ環境への展開は依然として著しく制限されている。
既存のベンチマークでは,(1)インタラクティブなダイナミクスを回避した受動的知覚タスク,(2)簡易な2次元環境は深度知覚を評価できないこと,(3)特権的状態漏洩は真の視覚的処理をバイパスすること,(4)人間の評価は違法に高価でスケールできないこと,の4つの重大な欠陥に悩まされている。
我々はPokeGymを紹介した。Pokemon Legends: Z-Aは視覚的に複雑なオープンワールドのロールプレイングゲームである。
PokeGymは厳格なコードレベルの分離を強制する:エージェントは生のRGB観測のみを運用するが、独立した評価器はメモリスキャンによって成功を検証し、純粋な視覚ベースの意思決定と自動化されたスケーラブルな評価を保証する。
このベンチマークは、ナビゲーション、インタラクション、混合シナリオにまたがる30のタスク(30-220ステップ)と、3つの命令の粒度(Visual-Guided、Step-Guided、Goal-Only)で構成され、視覚的な接地、セマンティック推論、自律的な探索機能を体系的に分解する。
我々の評価は、現在のVLMの鍵となる限界を明らかにしている: 高レベルの計画ではなく、物理的デッドロック回復が主要なボトルネックとなり、デッドロックはタスクの成功と強い負の相関を示す。
より弱いモデルは、主にUnaware Deadlocksに苦しむのに対して、先進的なモデルはAware Deadlocks(包み込みを認識できないが回復できない)を示す。
これらの知見は、VLMアーキテクチャに明示的な空間直観を統合する必要性を浮き彫りにした。
コードとベンチマークはGitHubで入手できる。
関連論文リスト
- 3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。
3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。
ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文 参考訳(メタデータ) (2026-02-12T16:41:26Z) - RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation [76.22852262683746]
本稿では,現実的な条件下でのVLA一般化を体系的に評価するベンチマークであるRADARを紹介する。
RADARを用いて、複数の最先端のVLAモデルを監査し、その明らかな能力の下で深刻な脆弱性を明らかにする。
論文 参考訳(メタデータ) (2026-02-11T16:08:30Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - RoboBrain 2.5: Depth in Sight, Time in Mind [63.825215214332104]
本稿では,一般的な知覚,空間的推論,時間的モデリングを促進する次世代AI基盤モデルであるRoboBrain 2.5を紹介する。
具体的には、2Dピクセル相対グラウンドから深度対応座標予測にシフトすることで、精密3D推論をアンロックする。
Dense Temporal Value Estimationは、密集したステップ対応の進捗予測と実行状態の理解を提供する。
論文 参考訳(メタデータ) (2026-01-20T17:21:54Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering [42.09744951074433]
生成過程を通じてランク付けされたトークンログを調べた結果,幻覚内部のダイナミクスについて検討した。
本稿では,真の情報を促進しつつ幻覚を減少させるトレーニングフリーな推論時間介入フレームワークであるVISTAを提案する。
論文 参考訳(メタデータ) (2025-02-05T21:34:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。