論文の概要: Scene-Intuitive Agent for Remote Embodied Visual Grounding
- arxiv url: http://arxiv.org/abs/2103.12944v1
- Date: Wed, 24 Mar 2021 02:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:04:27.423636
- Title: Scene-Intuitive Agent for Remote Embodied Visual Grounding
- Title(参考訳): 遠隔型視覚接地のためのシーン直感エージェント
- Authors: Xiangru Lin, Guanbin Li, Yizhou Yu
- Abstract要約: 人間は生命の出来事から学び、視覚環境や言語を理解するための直感を形成する。
このような人間の行動を模倣するエージェントを紹介します。
- 参考スコア(独自算出の注目度): 89.73786309180139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans learn from life events to form intuitions towards the understanding of
visual environments and languages. Envision that you are instructed by a
high-level instruction, "Go to the bathroom in the master bedroom and replace
the blue towel on the left wall", what would you possibly do to carry out the
task? Intuitively, we comprehend the semantics of the instruction to form an
overview of where a bathroom is and what a blue towel is in mind; then, we
navigate to the target location by consistently matching the bathroom
appearance in mind with the current scene. In this paper, we present an agent
that mimics such human behaviors. Specifically, we focus on the Remote Embodied
Visual Referring Expression in Real Indoor Environments task, called REVERIE,
where an agent is asked to correctly localize a remote target object specified
by a concise high-level natural language instruction, and propose a two-stage
training pipeline. In the first stage, we pretrain the agent with two
cross-modal alignment sub-tasks, namely the Scene Grounding task and the Object
Grounding task. The agent learns where to stop in the Scene Grounding task and
what to attend to in the Object Grounding task respectively. Then, to generate
action sequences, we propose a memory-augmented attentive action decoder to
smoothly fuse the pre-trained vision and language representations with the
agent's past memory experiences. Without bells and whistles, experimental
results show that our method outperforms previous state-of-the-art(SOTA)
significantly, demonstrating the effectiveness of our method.
- Abstract(参考訳): 人間は生命の出来事から学び、視覚環境や言語を理解するための直感を形成する。
主寝室のトイレに行き、左壁の青いタオルを交換する」というハイレベルな指示で指示されることを想像してください。
直感的には,バスルームがどこにあるのか,ブルータオルが何を念頭に置いているのかという概観を形成するための指示の意味を把握し,バスルームの外観と現在のシーンを一貫して一致させることで,目標の場所へナビゲートする。
本稿では,このような人間の行動を模倣するエージェントについて述べる。
具体的には、Remote Embodied Visual Referring Expression in Real Indoor Environments task(REVERIE)に着目し、エージェントに、簡潔な高レベル自然言語命令で指定されたリモートターゲットオブジェクトを正しくローカライズするよう依頼し、2段階のトレーニングパイプラインを提案する。
第1段階では,2つのクロスモーダルアライメントサブタスク,すなわちScene GroundingタスクとObject Groundingタスクでエージェントを事前訓練する。
エージェントは、各シーンの接地タスクで立ち止まる場所と、対象の接地タスクで何に参加するかを学ぶ。
そして,動作シーケンスを生成するために,学習前の視覚と言語表現をエージェントの過去の記憶体験とスムーズに融合させるメモリ拡張型注意動作デコーダを提案する。
ベルやホイッスルがなければ,従来の最先端(sota)をはるかに上回って,提案手法の有効性を実証する実験結果が得られた。
関連論文リスト
- Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。
視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。
我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-04T06:34:24Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Situated Instruction Following [87.37244711380411]
本稿では,実世界のコミュニケーションの非特異性とあいまいさを取り入れた位置指示について述べる。
位置指示の意味は、人間の過去の行動と将来の行動を通じて自然に展開される。
我々の実験は、現在最先端の身体的指示追従(EIF)モデルが、位置する人間の意図の全体的理解を欠いていることを示唆している。
論文 参考訳(メタデータ) (2024-07-15T19:32:30Z) - Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Distilling Internet-Scale Vision-Language Models into Embodied Agents [24.71298634838615]
本稿では,事前学習型視覚言語モデル (VLM) を用いてエンボディエージェントの監視を行う。
モデル蒸留と後視体験リプレイ(HER)のアイデアを組み合わせて,エージェントの振る舞いを記述する言語を遡及的に生成する。
我々の研究は、インターネットスケールのVLMを使うための新しい効果的な方法を概説し、そのようなモデルによって獲得された汎用的な言語基盤を再利用して、エンボディエージェントにタスク関連グラウンドを指導する。
論文 参考訳(メタデータ) (2023-01-29T18:21:05Z) - Layout-aware Dreamer for Embodied Referring Expression Grounding [49.33508853581283]
本研究では,エージェントがこれまで見つからなかった環境で移動する必要のある,身体的参照表現接地の問題について検討する。
我々はLayout-aware Dreamer(LAD)と呼ばれる自律エージェントを設計した。
LADは、粗いレイアウト推定のための経路に沿って、近隣の未探索領域の部屋カテゴリー分布を推定することを学ぶ。
効果的な環境探査を学ぶために、ゴールドリーマーは事前に目的地を想像する。
論文 参考訳(メタデータ) (2022-11-30T23:36:17Z) - Structured Exploration Through Instruction Enhancement for Object
Navigation [0.0]
本稿では,オブジェクトナビゲーションのための階層型学習手法を提案する。
トップレベルはハイレベルなプランニングが可能で、フロアプランレベルでメモリを構築することができる。
本研究では,本手法が動的家庭環境に与える影響を実証する。
論文 参考訳(メタデータ) (2022-11-15T19:39:22Z) - TIDEE: Tidying Up Novel Rooms using Visuo-Semantic Commonsense Priors [29.255373211228548]
TIDEEは、学習されたコモンセンスオブジェクト配置と部屋配置に基づいて、混乱したシーンをタイディーアップする。
TIDEEは、ホーム環境を探索し、自然の場所から外れたオブジェクトを検出し、それらに対して妥当なオブジェクトコンテキストを推測し、現在のシーンでそのようなコンテキストをローカライズし、オブジェクトを再配置する。
我々は,AI2THORシミュレーション環境における非編成シーンのタイピングについてTIDEEを検証した。
論文 参考訳(メタデータ) (2022-07-21T21:19:18Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。