論文の概要: Layout-aware Dreamer for Embodied Referring Expression Grounding
- arxiv url: http://arxiv.org/abs/2212.00171v2
- Date: Fri, 2 Dec 2022 16:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 13:19:14.458736
- Title: Layout-aware Dreamer for Embodied Referring Expression Grounding
- Title(参考訳): 身体的参照表現接地のためのレイアウト対応ドリーム
- Authors: Mingxiao Li, Zehao Wang, Tinne Tuytelaars, Marie-Francine Moens
- Abstract要約: 本研究では,エージェントがこれまで見つからなかった環境で移動する必要のある,身体的参照表現接地の問題について検討する。
我々はLayout-aware Dreamer(LAD)と呼ばれる自律エージェントを設計した。
LADは、粗いレイアウト推定のための経路に沿って、近隣の未探索領域の部屋カテゴリー分布を推定することを学ぶ。
効果的な環境探査を学ぶために、ゴールドリーマーは事前に目的地を想像する。
- 参考スコア(独自算出の注目度): 49.33508853581283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the problem of Embodied Referring Expression
Grounding, where an agent needs to navigate in a previously unseen environment
and localize a remote object described by a concise high-level natural language
instruction. When facing such a situation, a human tends to imagine what the
destination may look like and to explore the environment based on prior
knowledge of the environmental layout, such as the fact that a bathroom is more
likely to be found near a bedroom than a kitchen. We have designed an
autonomous agent called Layout-aware Dreamer (LAD), including two novel
modules, that is, the Layout Learner and the Goal Dreamer to mimic this
cognitive decision process. The Layout Learner learns to infer the room
category distribution of neighboring unexplored areas along the path for coarse
layout estimation, which effectively introduces layout common sense of
room-to-room transitions to our agent. To learn an effective exploration of the
environment, the Goal Dreamer imagines the destination beforehand. Our agent
achieves new state-of-the-art performance on the public leaderboard of the
REVERIE dataset in challenging unseen test environments with improvement in
navigation success (SR) by 4.02% and remote grounding success (RGS) by 3.43%
compared to the previous state-of-the-art. The code is released at
https://github.com/zehao-wang/LAD
- Abstract(参考訳): 本研究では,エージェントが未確認環境をナビゲートし,簡潔な高レベル自然言語命令によって記述されたリモートオブジェクトをローカライズする必要があるという,身体的参照表現接地の問題について検討する。
このような状況に直面すると、人間は目的地がどのようなものであるかを想像し、キッチンよりも寝室の近くで浴室が見つかる可能性が高いなど、環境レイアウトに関する事前の知識に基づいて環境を探索する傾向がある。
layout-aware dreamer (lad) と呼ばれる自律エージェントを設計し、この認知的意思決定プロセスを模倣する2つの新しいモジュール、つまりlayout learnerとgoal dreamerを設計した。
レイアウト学習者は、粗いレイアウト推定のための経路に沿って隣り合う未探索領域の部屋カテゴリ分布を推定し、エージェントへの部屋間遷移のレイアウト共通感覚を効果的に導入する。
効果的な環境探索を学ぶために、目標夢想家(goal dreamer)は、事前に目的地を想像する。
我々のエージェントは、REVERIEデータセットの公開リーダボード上で、ナビゲーション成功(SR)を4.02%改善し、リモートグラウンド成功(RGS)を3.43%改善した未確認テスト環境に挑戦する上で、新しい最先端のパフォーマンスを達成する。
コードはhttps://github.com/zehao-wang/LADで公開されている。
関連論文リスト
- What Is Near?: Room Locality Learning for Enhanced Robot
Vision-Language-Navigation in Indoor Living Environments [9.181624273492828]
視覚言語ナビゲーション(VLN)タスクのための共通センス学習モデルWINを提案する。
WINは、居住空間の事前の知識と現在の観測に基づいて、周辺地域の地図を予測する。
そこで本研究では,地域知識に基づく地域空間計画と屋内レイアウトの予測により,エージェントが適切な行動を選択することができることを示す。
論文 参考訳(メタデータ) (2023-09-10T14:15:01Z) - TIDEE: Tidying Up Novel Rooms using Visuo-Semantic Commonsense Priors [29.255373211228548]
TIDEEは、学習されたコモンセンスオブジェクト配置と部屋配置に基づいて、混乱したシーンをタイディーアップする。
TIDEEは、ホーム環境を探索し、自然の場所から外れたオブジェクトを検出し、それらに対して妥当なオブジェクトコンテキストを推測し、現在のシーンでそのようなコンテキストをローカライズし、オブジェクトを再配置する。
我々は,AI2THORシミュレーション環境における非編成シーンのタイピングについてTIDEEを検証した。
論文 参考訳(メタデータ) (2022-07-21T21:19:18Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Scene-Intuitive Agent for Remote Embodied Visual Grounding [89.73786309180139]
人間は生命の出来事から学び、視覚環境や言語を理解するための直感を形成する。
このような人間の行動を模倣するエージェントを紹介します。
論文 参考訳(メタデータ) (2021-03-24T02:37:48Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。