論文の概要: Context-Aware Planning and Environment-Aware Memory for Instruction
Following Embodied Agents
- arxiv url: http://arxiv.org/abs/2308.07241v2
- Date: Sat, 19 Aug 2023 15:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 20:30:31.145453
- Title: Context-Aware Planning and Environment-Aware Memory for Instruction
Following Embodied Agents
- Title(参考訳): 具体化エージェントの指示のための文脈認識計画と環境認識メモリ
- Authors: Byeonghwi Kim, Jinyeon Kim, Yuyeong Kim, Cheolhong Min, Jonghyun Choi
- Abstract要約: 本研究では, CPEM (Context-aware Planner and Environment-aware Memory) を提案し, 従来の行動のコンテキスト情報を取り入れた計画手法を提案する。
CEMは、挑戦的な対話的命令を用いて、様々なメトリクスで最先端のタスク成功性能を達成する。
ECLAIRという名前のテンプレートアクションを持つCEMは、CVPR'23のEmbodied AI Workshopで第1回ジェネラリスト言語接地エージェント賞を受賞した。
- 参考スコア(独自算出の注目度): 15.902536100207852
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accomplishing household tasks such as 'bringing a cup of water' requires
planning step-by-step actions by maintaining knowledge about the spatial
arrangement of objects and the consequences of previous actions. Perception
models of the current embodied AI agents, however, often make mistakes due to a
lack of such knowledge but rely on imperfect learning of imitating agents or an
algorithmic planner without knowledge about the changed environment by the
previous actions. To address the issue, we propose CPEM (Context-aware Planner
and Environment-aware Memory) to incorporate the contextual information of
previous actions for planning and maintaining spatial arrangement of objects
with their states (e.g., if an object has been moved or not) in an environment
to the perception model for improving both visual navigation and object
interaction. We observe that CPEM achieves state-of-the-art task success
performance in various metrics using a challenging interactive instruction
following benchmark both in seen and unseen environments by large margins (up
to +10.70% in unseen env.). CPEM with the templated actions, named ECLAIR, also
won the 1st generalist language grounding agents challenge at Embodied AI
Workshop in CVPR'23.
- Abstract(参考訳): 「水を飲む」などの家事課題には、物体の空間配置や過去の行動の結果に関する知識を維持することによって、ステップバイステップのアクションを計画する必要がある。
しかし、現在の具体化されたaiエージェントの知覚モデルは、そのような知識の欠如によって誤りを犯すことが多いが、前回の行動による環境の変化に関する知識のないエージェントやアルゴリズムプランナーの非完全学習に依存している。
この問題に対処するために,物体の空間配置をその状態(例えば,物体が移動したか否か)に計画・維持するための前回の動作の文脈情報を,視覚ナビゲーションとオブジェクトインタラクションの両方を改善する知覚モデルに組み込むcpem(context-aware planner and environment-aware memory)を提案する。
CPEMは,目視環境と目視環境の両方において,目視環境と目視環境の双方で(見当たらない環境において+10.70%まで)、挑戦的な対話的インストラクションを用いて,様々な指標のタスク成功性能を達成している。
ECLAIRという名前のテンプレートアクションを持つCPEMは、CVPR'23のEmbodied AI Workshopで第1回ジェネラリスト言語接地エージェントコンテストでも優勝した。
関連論文リスト
- Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - STAIR: Semantic-Targeted Active Implicit Reconstruction [23.884933841874908]
特定の意味を持つオブジェクト、すなわち特定の意味を持つオブジェクトを活発に再構築することは、ロボットが下流のタスクを実行するのに重要である。
提案手法は,RGB-Dの測定値と2次元意味ラベルを入力として用いたセマンティックターゲット型アクティブリコンストラクションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-17T14:42:05Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。