論文の概要: ADAPT: Benchmarking Commonsense Planning under Unspecified Affordance Constraints
- arxiv url: http://arxiv.org/abs/2604.14902v1
- Date: Thu, 16 Apr 2026 11:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.874517
- Title: ADAPT: Benchmarking Commonsense Planning under Unspecified Affordance Constraints
- Title(参考訳): ADAPT: 特定制約下でのコモンセンスプランニングのベンチマーク
- Authors: Pei-An Chen, Yong-Ching Liang, Jia-Fong Yeh, Hung-Ting Su, Yi-Ting Chen, Min Sun, Winston Hsu,
- Abstract要約: 動的環境におけるエンボディエージェントの評価を行うベンチマークであるDynAffordを紹介する。
ADAPTはプラグイン・アンド・プレイのモジュールで、既存のプランナーを明確なアベイランス推論で強化する。
- 参考スコア(独自算出の注目度): 19.508025030912073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent embodied agents should not simply follow instructions, as real-world environments often involve unexpected conditions and exceptions. However, existing methods usually focus on directly executing instructions, without considering whether the target objects can actually be manipulated, meaning they fail to assess available affordances. To address this limitation, we introduce DynAfford, a benchmark that evaluates embodied agents in dynamic environments where object affordances may change over time and are not specified in the instruction. DynAfford requires agents to perceive object states, infer implicit preconditions, and adapt their actions accordingly. To enable this capability, we introduce ADAPT, a plug-and-play module that augments existing planners with explicit affordance reasoning. Experiments demonstrate that incorporating ADAPT significantly improves robustness and task success across both seen and unseen environments. We also show that a domain-adapted, LoRA-finetuned vision-language model used as the affordance inference backend outperforms a commercial LLM (GPT-4o), highlighting the importance of task-aligned affordance grounding.
- Abstract(参考訳): 現実の環境は、しばしば予期せぬ条件や例外を伴うため、インテリジェントなエンボディエージェントは単に指示に従うべきではない。
しかしながら、既存のメソッドは通常、ターゲットオブジェクトを実際に操作できるかどうかを考慮せずに、命令を直接実行することに重点を置いている。
この制限に対処するため、DynAffordは、時間とともにオブジェクトの余裕が変化し、命令に指定されない動的環境において、エンボディエージェントを評価するベンチマークである。
DynAffordは、エージェントがオブジェクトの状態を理解し、暗黙の前提条件を推測し、それに応じてアクションを適用することを要求する。
この機能を実現するために,既存のプランナを明示的なアベイランス推論で拡張するプラグイン・アンド・プレイモジュールであるADAPTを導入する。
ADAPTの導入は、目に見える環境と見えない環境の両方において、堅牢性とタスクの成功を大幅に改善することを示した。
また、アプライアンス推論バックエンドとして使用されるドメイン適応型LoRA-finetuned Vision-Languageモデルが商用LLM(GPT-4o)より優れており、タスク整合型アプライアンスグラウンドの重要性が強調されている。
関連論文リスト
- TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models [59.13964209628383]
VLA(Vision-Language-Action)ポリシーは、言語指示や視覚的な観察をロボット行動にマッピングする上で大きな進歩を見せている。
本稿では,VLA政策における乱れや外見に起因したバイアスを明示的に軽減する単純な推論時ガイダンス機構であるTAG(Target-Agnostic Guidance)を提案する。
我々は, LIBERO, LIBERO-Plus, VLABenchなどの標準操作ベンチマーク上でTAGを評価し, クラッタ下での堅牢性を一貫して改善し, ニアミスや不正なオブジェクト実行を減らす。
論文 参考訳(メタデータ) (2026-03-25T17:56:32Z) - Robust Skills, Brittle Grounding: Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking [6.713814849613683]
視覚言語アクション(VLA)ポリシーは、比較的少数のデモで強力な操作ベンチマーク性能を報告している。
本研究は, オブジェクト配置のばらつきを, 作業空間のランダム化まで徐々に増大させる多目的ピッキング研究である。
SmolVLAや$_0.5$といった代表的VLAポリシでは、操作プリミティブの実行は、命令条件のタスク成功よりもかなり信頼性が高いことが分かりました。
論文 参考訳(メタデータ) (2026-02-27T16:20:04Z) - SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models [21.133970394496327]
VLA(Vision-Language-Action)モデルが汎用ロボット制御の有望なパラダイムとして登場した。
現在のテストタイムスケーリング(TTS)メソッドでは、追加のトレーニング、検証、複数フォワードパスが必要になるため、デプロイには実用的ではない。
我々は,「自己不確実性」に基づく視覚的知覚と行動を協調的に調節するシンプルな推論戦略を提案する。
論文 参考訳(メタデータ) (2026-02-04T04:48:16Z) - From Task Solving to Robust Real-World Adaptation in LLM Agents [17.122224644097304]
大規模言語モデルは、拡張された地平線上での計画、呼び出し、アクションを行う特別なエージェントとして、ますます多くデプロイされている。
グリッド型ゲームにおけるエージェントLLMを、単純なゴールだが長距離実行でベンチマークする。
名目上のタスク解決と,デプロイメントのような堅牢性の間には,大きなギャップがあります。
論文 参考訳(メタデータ) (2026-02-02T20:10:40Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。