論文の概要: Scene-Intuitive Agent for Remote Embodied Visual Grounding
- arxiv url: http://arxiv.org/abs/2103.12944v1
- Date: Wed, 24 Mar 2021 02:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:04:27.423636
- Title: Scene-Intuitive Agent for Remote Embodied Visual Grounding
- Title(参考訳): 遠隔型視覚接地のためのシーン直感エージェント
- Authors: Xiangru Lin, Guanbin Li, Yizhou Yu
- Abstract要約: 人間は生命の出来事から学び、視覚環境や言語を理解するための直感を形成する。
このような人間の行動を模倣するエージェントを紹介します。
- 参考スコア(独自算出の注目度): 89.73786309180139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans learn from life events to form intuitions towards the understanding of
visual environments and languages. Envision that you are instructed by a
high-level instruction, "Go to the bathroom in the master bedroom and replace
the blue towel on the left wall", what would you possibly do to carry out the
task? Intuitively, we comprehend the semantics of the instruction to form an
overview of where a bathroom is and what a blue towel is in mind; then, we
navigate to the target location by consistently matching the bathroom
appearance in mind with the current scene. In this paper, we present an agent
that mimics such human behaviors. Specifically, we focus on the Remote Embodied
Visual Referring Expression in Real Indoor Environments task, called REVERIE,
where an agent is asked to correctly localize a remote target object specified
by a concise high-level natural language instruction, and propose a two-stage
training pipeline. In the first stage, we pretrain the agent with two
cross-modal alignment sub-tasks, namely the Scene Grounding task and the Object
Grounding task. The agent learns where to stop in the Scene Grounding task and
what to attend to in the Object Grounding task respectively. Then, to generate
action sequences, we propose a memory-augmented attentive action decoder to
smoothly fuse the pre-trained vision and language representations with the
agent's past memory experiences. Without bells and whistles, experimental
results show that our method outperforms previous state-of-the-art(SOTA)
significantly, demonstrating the effectiveness of our method.
- Abstract(参考訳): 人間は生命の出来事から学び、視覚環境や言語を理解するための直感を形成する。
主寝室のトイレに行き、左壁の青いタオルを交換する」というハイレベルな指示で指示されることを想像してください。
直感的には,バスルームがどこにあるのか,ブルータオルが何を念頭に置いているのかという概観を形成するための指示の意味を把握し,バスルームの外観と現在のシーンを一貫して一致させることで,目標の場所へナビゲートする。
本稿では,このような人間の行動を模倣するエージェントについて述べる。
具体的には、Remote Embodied Visual Referring Expression in Real Indoor Environments task(REVERIE)に着目し、エージェントに、簡潔な高レベル自然言語命令で指定されたリモートターゲットオブジェクトを正しくローカライズするよう依頼し、2段階のトレーニングパイプラインを提案する。
第1段階では,2つのクロスモーダルアライメントサブタスク,すなわちScene GroundingタスクとObject Groundingタスクでエージェントを事前訓練する。
エージェントは、各シーンの接地タスクで立ち止まる場所と、対象の接地タスクで何に参加するかを学ぶ。
そして,動作シーケンスを生成するために,学習前の視覚と言語表現をエージェントの過去の記憶体験とスムーズに融合させるメモリ拡張型注意動作デコーダを提案する。
ベルやホイッスルがなければ,従来の最先端(sota)をはるかに上回って,提案手法の有効性を実証する実験結果が得られた。
関連論文リスト
- ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Which way is `right'?: Uncovering limitations of Vision-and-Language
Navigation model [22.411040828204793]
VLN(Vision-and-Language Navigation)は、目標の位置やオブジェクトに到達するために、自然言語命令に従うための具体的エージェントを必要とする。
エージェントがこのタスクを成功させるためには、インストラクションに参照されたオブジェクトを視覚的なシーンにグラウンドできる必要があります。
ナビゲーションモデルの判断に空間的および指向性のある言語的手がかりはどの程度の程度か?
論文 参考訳(メタデータ) (2023-11-30T19:16:11Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Distilling Internet-Scale Vision-Language Models into Embodied Agents [24.71298634838615]
本稿では,事前学習型視覚言語モデル (VLM) を用いてエンボディエージェントの監視を行う。
モデル蒸留と後視体験リプレイ(HER)のアイデアを組み合わせて,エージェントの振る舞いを記述する言語を遡及的に生成する。
我々の研究は、インターネットスケールのVLMを使うための新しい効果的な方法を概説し、そのようなモデルによって獲得された汎用的な言語基盤を再利用して、エンボディエージェントにタスク関連グラウンドを指導する。
論文 参考訳(メタデータ) (2023-01-29T18:21:05Z) - Layout-aware Dreamer for Embodied Referring Expression Grounding [49.33508853581283]
本研究では,エージェントがこれまで見つからなかった環境で移動する必要のある,身体的参照表現接地の問題について検討する。
我々はLayout-aware Dreamer(LAD)と呼ばれる自律エージェントを設計した。
LADは、粗いレイアウト推定のための経路に沿って、近隣の未探索領域の部屋カテゴリー分布を推定することを学ぶ。
効果的な環境探査を学ぶために、ゴールドリーマーは事前に目的地を想像する。
論文 参考訳(メタデータ) (2022-11-30T23:36:17Z) - Structured Exploration Through Instruction Enhancement for Object
Navigation [0.0]
本稿では,オブジェクトナビゲーションのための階層型学習手法を提案する。
トップレベルはハイレベルなプランニングが可能で、フロアプランレベルでメモリを構築することができる。
本研究では,本手法が動的家庭環境に与える影響を実証する。
論文 参考訳(メタデータ) (2022-11-15T19:39:22Z) - TIDEE: Tidying Up Novel Rooms using Visuo-Semantic Commonsense Priors [29.255373211228548]
TIDEEは、学習されたコモンセンスオブジェクト配置と部屋配置に基づいて、混乱したシーンをタイディーアップする。
TIDEEは、ホーム環境を探索し、自然の場所から外れたオブジェクトを検出し、それらに対して妥当なオブジェクトコンテキストを推測し、現在のシーンでそのようなコンテキストをローカライズし、オブジェクトを再配置する。
我々は,AI2THORシミュレーション環境における非編成シーンのタイピングについてTIDEEを検証した。
論文 参考訳(メタデータ) (2022-07-21T21:19:18Z) - Environment Predictive Coding for Embodied Agents [92.31905063609082]
本稿では,環境レベルの表現を具体化エージェントに学習する自己教師型手法である環境予測符号化を導入する。
GibsonとMatterport3Dのフォトリアリスティックな3D環境に関する実験により、我々の手法は、限られた経験の予算しか持たない課題において、最先端の課題よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-03T23:43:16Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。