論文の概要: Anticipate, Adapt, Act: A Hybrid Framework for Task Planning
- arxiv url: http://arxiv.org/abs/2602.19518v1
- Date: Mon, 23 Feb 2026 05:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.639116
- Title: Anticipate, Adapt, Act: A Hybrid Framework for Task Planning
- Title(参考訳): 予測、適応、法制:タスクプランニングのためのハイブリッドフレームワーク
- Authors: Nabanita Dash, Ayush Kaura, Shivam Singh, Ramandeep Singh, Snehasis Banerjee, Mohan Sridharan, K. Madhava Krishna,
- Abstract要約: 失敗を予測し、適応することは、ロボットが複雑なドメインで人間と効果的に協力する必要がある重要な能力である。
本稿では,LLMの汎用予測機能と動的影響図形言語の逐次決定機能を統合するハイブリッドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.95315033393626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating and adapting to failures is a key capability robots need to collaborate effectively with humans in complex domains. This continues to be a challenge despite the impressive performance of state of the art AI planning systems and Large Language Models (LLMs) because of the uncertainty associated with the tasks and their outcomes. Toward addressing this challenge, we present a hybrid framework that integrates the generic prediction capabilities of an LLM with the probabilistic sequential decision-making capability of Relational Dynamic Influence Diagram Language. For any given task, the robot reasons about the task and the capabilities of the human attempting to complete it; predicts potential failures due to lack of ability (in the human) or lack of relevant domain objects; and executes actions to prevent such failures or recover from them. Experimental evaluation in the VirtualHome 3D simulation environment demonstrates substantial improvement in performance compared with state of the art baselines.
- Abstract(参考訳): 失敗を予測し、適応することは、ロボットが複雑なドメインで人間と効果的に協力する必要がある重要な能力である。
タスクとその成果にまつわる不確実性のため、最先端のAI計画システムと大規模言語モデル(LLM)のパフォーマンスが著しく向上しているにも関わらず、これは引き続き課題である。
この課題に対処するために,LLMの汎用予測能力とリレーショナル・ダイナミック・インフルエンス・ダイアグラム言語の確率的逐次決定能力を統合するハイブリッド・フレームワークを提案する。
特定のタスクに対して、ロボットはタスクとそれを完了しようとする人間の能力について理由付けを行い、能力の欠如(人間における)や関連するドメインオブジェクトの欠如による潜在的な障害を予測し、そのような障害を予防したり、それらから回復するためのアクションを実行する。
VirtualHome 3Dシミュレーション環境での実験評価により,最先端のベースラインに比べて性能が大幅に向上した。
関連論文リスト
- Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - Generative AI for Social Impact [37.37093679341245]
AI for Social Impact(AI4SI)は、公衆衛生、保護、セキュリティにおいて魅力的な成果を上げている。
我々は,このボトルネックを,限られたデータや信頼できないデータから生じる観察的不足,決定や非定常性に関わる政策課題,人間とAIの整合性の摩擦という3つのギャップを通じて特徴づける。
我々は、生成AIがこれらのギャップを埋める統一的な経路を提供すると主張する。
論文 参考訳(メタデータ) (2026-01-05T02:44:39Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.74313897705183]
CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。
CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
論文 参考訳(メタデータ) (2024-11-04T04:41:12Z) - Autonomous Behavior Planning For Humanoid Loco-manipulation Through Grounded Language Model [6.9268843428933025]
大規模言語モデル(LLM)は、意味情報の理解と処理のための強力な計画と推論能力を示している。
本稿では,ロボットが与えられたテキストによる指示の下で,自律的に動作や低レベル実行を計画できる新しい言語モデルベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T17:33:32Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。