論文の概要: AsgardBench - Evaluating Visually Grounded Interactive Planning Under Minimal Feedback
- arxiv url: http://arxiv.org/abs/2603.15888v1
- Date: Mon, 16 Mar 2026 20:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.977984
- Title: AsgardBench - Evaluating Visually Grounded Interactive Planning Under Minimal Feedback
- Title(参考訳): AsgardBench - 最小のフィードバック下での視覚的接地型インタラクティブプランニングの評価
- Authors: Andrea Tupini, Lars Liden, Reuben Tan, Yu Wang, Jianfeng Gao,
- Abstract要約: AsgardBenchは、視覚的に基礎があり、ハイレベルなアクションシーケンス生成と対話的な計画を評価することを目指している。
評価の結果,視覚的入力を使わずに性能が急激に低下し,視覚的接地や状態追跡の弱点が明らかとなった。
私たちのベンチマークでは,より限定的な疑問に言及しています – 期待通りに進まなければ,実際に計画に適応するために,モデルが見ているものを使用することは可能ですか?
- 参考スコア(独自算出の注目度): 28.254110943200683
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With AsgardBench we aim to evaluate visually grounded, high-level action sequence generation and interactive planning, focusing specifically on plan adaptation during execution based on visual observations rather than navigation or low-level manipulation. In the landscape of embodied AI benchmarks, AsgardBench targets the capability category of interactive planning, which is more sophisticated than offline high-level planning as it requires agents to revise plans in response to environmental feedback, yet remains distinct from low-level execution. Unlike prior embodied AI benchmarks that conflate reasoning with navigation or provide rich corrective feedback that substitutes for perception, AsgardBench restricts agent input to images, action history, and lightweight success/failure signals, isolating interactive planning in a controlled simulator without low-level control noise. The benchmark contains 108 task instances spanning 12 task types, each systematically varied through object state, placement, and scene configuration. These controlled variations create conditional branches in which a single instruction can require different action sequences depending on what the agent observes, emphasizing conditional branching and plan repair during execution. Our evaluations of leading vision language models show that performance drops sharply without visual input, revealing weaknesses in visual grounding and state tracking that ultimately undermine interactive planning. Our benchmark zeroes in on a narrower question: can a model actually use what it sees to adapt a plan when things do not go as expected?
- Abstract(参考訳): AsgardBenchでは、ナビゲーションや低レベルの操作ではなく、視覚的な観察に基づく実行中の計画適応に特化して、視覚的基盤を持つハイレベルなアクションシーケンス生成とインタラクティブな計画を評価することを目的としている。
AsgardBenchは、AIベンチマークのランドスケープにおいて、対話型計画の能力カテゴリをターゲットにしている。これは、エージェントが環境フィードバックに応じて計画を変更する必要があるため、オフラインの高レベル計画よりも洗練されたものであるが、低レベルの実行とは相変わらず異なっている。
AsgardBenchは画像、アクション履歴、軽量な成功/失敗信号へのエージェント入力を制限し、低レベルの制御ノイズを伴わないコントロールシミュレータでインタラクティブなプランニングを分離する。
ベンチマークには12のタスクタイプにまたがる108のタスクインスタンスが含まれている。
これらの制御されたバリエーションは条件分岐を生成し、エージェントが観察するものに応じて単一の命令が異なるアクションシーケンスを必要とするようにし、実行中に条件分岐と計画の修復を強調する。
先進視覚言語モデルによる評価では、視覚的入力なしでは性能が急激に低下し、視覚的接地や状態追跡の弱点が明らかになり、最終的にはインタラクティブな計画が損なわれる。
私たちのベンチマークでは,より限定的な疑問に言及しています – 期待通りに進まなければ,実際に計画に適応するために,モデルが見ているものを使用することは可能ですか?
関連論文リスト
- From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates [35.64639873984766]
本稿では,初期状態と目標状態の間の中間的推論ステップを導入したSGI(Scene Graph Incremental Update)を提案する。
シーケンシャルプランニングにおける信頼性の向上に加えて、SGIはPlan-BenchやVQAといった従来のプランニングタスクに一般化している。
論文 参考訳(メタデータ) (2025-12-11T06:46:51Z) - ATLAS: Actor-Critic Task-Completion with Look-ahead Action Simulation [28.54052846801967]
ATLASは、認知空間におけるこれらの行動の結果をシミュレートすることで、環境のモデルに基づく計画を作成するメモリ拡張エージェントである。
WebArena-Liteベンチマークでは、これまで公表された最先端技術の53.9%の成功率と比較して63%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-26T16:03:39Z) - The Cognitive Bandwidth Bottleneck: Shifting Long-Horizon Agent from Planning with Actions to Planning with Schemas [56.62286434195321]
本稿では2つの異なる行動表現の有効性を体系的に研究する。
本稿では,その違いを質的に理解するための概念的枠組みとして,認知的帯域幅の観点を提案する。
より有能なPwSエージェントを構築するための実用的なガイドを提供する。
論文 参考訳(メタデータ) (2025-10-08T14:47:40Z) - Scene Graph-Guided Proactive Replanning for Failure-Resilient Embodied Agent [9.370683025542686]
本稿では,サブタスク境界における障害の検出と修正を行う,アクティブなリプランニングフレームワークを提案する。
AI2-THORシミュレータの実験では,実行障害発生前の意味的および空間的ミスマッチを検出する。
論文 参考訳(メタデータ) (2025-08-15T07:48:51Z) - ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning [47.27336786187929]
視覚言語アクション(VLA)推論タスクでは、エージェントはマルチモーダル命令を解釈し、長期計画を実行し、動的環境で適応的に行動する必要がある。
既存のアプローチは通常、エンドツーエンドでVLAモデルをトレーニングし、明示的な推論なしに入力を直接アクションにマッピングする。
本稿では,高レベルの推論と低レベルのアクション実行を,強化された視覚的潜在計画を通じて橋渡しする,デュアルシステムフレームワークであるThinkActを提案する。
論文 参考訳(メタデータ) (2025-07-22T17:59:46Z) - GTA1: GUI Test-time Scaling Agent [97.58177633084915]
グラフィカルユーザインタフェース(GUI)は、ユーザ命令をアクションプロポーザルに順次分解することで、プラットフォーム(例えばLinux)間で自律的にタスクを完了させる。
本稿では,前述の textbfGUI textbfTest-time Scaling textbfAgent,すなわち GTA1 の課題について検討する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - Hallucinative Topological Memory for Zero-Shot Visual Planning [86.20780756832502]
視覚計画(VP)では、エージェントは、オフラインで取得した動的システムの観察から目標指向の振る舞いを計画することを学ぶ。
以前のVPに関するほとんどの研究は、学習された潜在空間で計画することでこの問題にアプローチし、結果として品質の低い視覚計画を生み出した。
本稿では,画像空間を直接計画し,競合性能を示すシンプルなVP手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T18:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。