論文の概要: Context-Aware Planning and Environment-Aware Memory for Instruction
Following Embodied Agents
- arxiv url: http://arxiv.org/abs/2308.07241v4
- Date: Wed, 13 Mar 2024 02:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:23.100282
- Title: Context-Aware Planning and Environment-Aware Memory for Instruction
Following Embodied Agents
- Title(参考訳): コンテキストアウェア・プランニングと環境アウェア・メモリ
炭水化物に就て
- Authors: Byeonghwi Kim, Jinyeon Kim, Yuyeong Kim, Cheolhong Min, Jonghyun Choi
- Abstract要約: 本稿では,CAPEAMによる行動行動の結果を一連の行動で考察する。
提案したCAPEAMのエージェントは,様々な測定値において最先端の性能を達成することを実証的に示す。
- 参考スコア(独自算出の注目度): 15.902536100207852
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accomplishing household tasks requires to plan step-by-step actions
considering the consequences of previous actions. However, the state-of-the-art
embodied agents often make mistakes in navigating the environment and
interacting with proper objects due to imperfect learning by imitating experts
or algorithmic planners without such knowledge. To improve both visual
navigation and object interaction, we propose to consider the consequence of
taken actions by CAPEAM (Context-Aware Planning and Environment-Aware Memory)
that incorporates semantic context (e.g., appropriate objects to interact with)
in a sequence of actions, and the changed spatial arrangement and states of
interacted objects (e.g., location that the object has been moved to) in
inferring the subsequent actions. We empirically show that the agent with the
proposed CAPEAM achieves state-of-the-art performance in various metrics using
a challenging interactive instruction following benchmark in both seen and
unseen environments by large margins (up to +10.70% in unseen env.).
- Abstract(参考訳): 家庭のタスクを遵守するには、以前の行動の結果を考慮してステップバイステップのアクションを計画する必要がある。
しかし、最先端の実施エージェントは、そのような知識のない専門家やアルゴリズムプランナーを模倣することによって、環境をナビゲートし、不完全な学習によって適切な物体と対話する際に、しばしば間違いを犯す。
視覚的ナビゲーションとオブジェクトインタラクションの両面を改善するために,動作の順序に意味的コンテキスト(例えば,対話する適切なオブジェクト)を組み込んだCAPEAM(Context-Aware Planning and Environment-Aware Memory)による行動結果と,その後の動作の推測における相互作用対象(例えば,オブジェクトが移動した場所)の空間配置と状態について検討する。
提案したCAPEAMのエージェントは,目視環境と目視環境の両方において,目視環境と目視環境の両方において,挑戦的な対話的指導(+10.70%まで)を用いて,様々な指標の最先端性能を達成することを実証的に示す。
関連論文リスト
- Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - STAIR: Semantic-Targeted Active Implicit Reconstruction [23.884933841874908]
特定の意味を持つオブジェクト、すなわち特定の意味を持つオブジェクトを活発に再構築することは、ロボットが下流のタスクを実行するのに重要である。
提案手法は,RGB-Dの測定値と2次元意味ラベルを入力として用いたセマンティックターゲット型アクティブリコンストラクションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-17T14:42:05Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。