論文の概要: EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer
- arxiv url: http://arxiv.org/abs/2509.12718v1
- Date: Tue, 16 Sep 2025 06:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.91968
- Title: EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer
- Title(参考訳): EvoEmpirBench: Agent-ExpVerによる動的空間推論
- Authors: Pukun Zhao, Longxiang Wang, Miaowei Wang, Chen Chen, Fanqing Zhou, Haojian Huang,
- Abstract要約: 空間的理解と適応計画におけるモデルの能力を評価する2つの動的空間的ベンチマークを導入する。
実験の結果、我々のベンチマークは、動的空間推論と長期記憶における主流モデルの鍵となる限界を明らかにしている。
- 参考スコア(独自算出の注目度): 5.855255212938064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing spatial reasoning benchmarks focus on static or globally observable environments, failing to capture the challenges of long-horizon reasoning and memory utilization under partial observability and dynamic changes. We introduce two dynamic spatial benchmarks, locally observable maze navigation and match-2 elimination that systematically evaluate models' abilities in spatial understanding and adaptive planning when local perception, environment feedback, and global objectives are tightly coupled. Each action triggers structural changes in the environment, requiring continuous update of cognition and strategy. We further propose a subjective experience-based memory mechanism for cross-task experience transfer and validation. Experiments show that our benchmarks reveal key limitations of mainstream models in dynamic spatial reasoning and long-term memory, providing a comprehensive platform for future methodological advances. Our code and data are available at https://anonymous.4open.science/r/EvoEmpirBench-143C/.
- Abstract(参考訳): 既存の空間的推論ベンチマークの多くは、静的またはグローバルな観測可能な環境に焦点を当てており、部分的な観測可能性や動的変化の下での長期的推論とメモリ利用の課題を捉えられなかった。
局所的な知覚や環境フィードバック,グローバルな目的が密結合されている場合,空間的理解と適応計画におけるモデルの能力を体系的に評価する,局所観測可能な迷路ナビゲーションとMatch-2除去という2つの動的空間ベンチマークを導入する。
各アクションは環境の構造的変化を引き起こし、認識と戦略の継続的な更新を必要とする。
さらに,クロスタスク体験転送と検証のための主観的体験ベースメモリ機構を提案する。
実験の結果、我々のベンチマークは、動的空間推論と長期記憶における主流モデルの鍵となる限界を明らかにし、将来の方法論的進歩のための包括的なプラットフォームを提供する。
私たちのコードとデータはhttps://anonymous.4open.science/r/EvoEmpirBench-143C/で公開されています。
関連論文リスト
- Robust Visual Localization via Semantic-Guided Multi-Scale Transformer [3.3106947066548167]
マルチスケール特徴学習とセマンティックシーン理解を組み合わせたフレームワークを提案する。
本手法では, 空間的変化に適応しつつ, 空間的精度を保ちながら, 幾何学的詳細と文脈的手がかりを融合する階層変換器を用いる。
論文 参考訳(メタデータ) (2025-06-10T07:44:53Z) - Dynamic Attention Mechanism in Spatiotemporal Memory Networks for Object Tracking [8.040709469401257]
本研究では,空間的注意重みを解析することにより,注意重みを適応的に調節する動的注意機構を提案する。
目標運動状態に基づいて計算資源を自律的に割り当てる軽量ゲーティングネットワークは、挑戦的なシナリオにおいて高い識別可能性の特徴を優先する。
論文 参考訳(メタデータ) (2025-03-21T00:48:31Z) - Allostatic Control of Persistent States in Spiking Neural Networks for perception and computation [79.16635054977068]
本稿では,アロスタシスの概念を内部表現の制御に拡張することにより,環境に対する知覚的信念を更新するための新しいモデルを提案する。
本稿では,アトラクタネットワークにおける活動の急増を空間的数値表現として利用する数値認識の応用に焦点を当てる。
論文 参考訳(メタデータ) (2025-03-20T12:28:08Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。