論文の概要: Explore and Explain: Self-supervised Navigation and Recounting
- arxiv url: http://arxiv.org/abs/2007.07268v1
- Date: Tue, 14 Jul 2020 18:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:28:03.485986
- Title: Explore and Explain: Self-supervised Navigation and Recounting
- Title(参考訳): Explore and Explain: セルフ教師付きナビゲーションとリカウント
- Authors: Roberto Bigazzi, Federico Landi, Marcella Cornia, Silvia Cascianelli,
Lorenzo Baraldi, Rita Cucchiara
- Abstract要約: エージェントがこれまで知らなかった環境を探索し、経路中に何が見えるかを再計算する、新しい具体的環境を考案する。
この文脈では、エージェントは探索目標によって駆動される環境をナビゲートし、記述のための適切な瞬間を選択し、関連するオブジェクトやシーンの自然言語記述を出力する必要がある。
本モデルでは,新たな自己監督型探索モジュールとペナルティと,説明のための完全なキャプションモデルを統合した。
- 参考スコア(独自算出の注目度): 43.52107532692226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied AI has been recently gaining attention as it aims to foster the
development of autonomous and intelligent agents. In this paper, we devise a
novel embodied setting in which an agent needs to explore a previously unknown
environment while recounting what it sees during the path. In this context, the
agent needs to navigate the environment driven by an exploration goal, select
proper moments for description, and output natural language descriptions of
relevant objects and scenes. Our model integrates a novel self-supervised
exploration module with penalty, and a fully-attentive captioning model for
explanation. Also, we investigate different policies for selecting proper
moments for explanation, driven by information coming from both the environment
and the navigation. Experiments are conducted on photorealistic environments
from the Matterport3D dataset and investigate the navigation and explanation
capabilities of the agent as well as the role of their interactions.
- Abstract(参考訳): 自律的でインテリジェントなエージェントの開発を促進することを目的として、Embodied AIは最近注目を集めている。
本稿では,エージェントが未知の環境を探索し,その経路に何が見えるのかを記述する必要がある,新たな具体的設定を考案する。
この文脈では、エージェントは探索目標によって駆動される環境をナビゲートし、説明のための適切なモーメントを選択し、関連するオブジェクトとシーンの自然言語記述を出力する必要がある。
本モデルでは,新たな自己監督探索モジュールとペナルティと,説明のための完全なキャプションモデルを統合する。
また,環境とナビゲーションの双方から得られる情報によって,説明の適切なモーメントを選択するための異なるポリシーについて検討する。
Matterport3Dデータセットからフォトリアリスティックな環境下で実験を行い、エージェントのナビゲーションと説明機能およびそれらの相互作用の役割について調査する。
関連論文リスト
- NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - Embodied Agents for Efficient Exploration and Smart Scene Description [47.82947878753809]
我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
論文 参考訳(メタデータ) (2023-01-17T19:28:01Z) - What do navigation agents learn about their environment? [39.74076893981299]
本稿では、ポイントゴールナビゲーションエージェントとオブジェクトゴールナビゲーションエージェントのための、エンボディード・アグエント(iSEE)の解釈可能性システムについて紹介する。
これらのエージェントが生成する動的表現をiSEEを用いて探索し,エージェントや環境に関する情報を提示する。
論文 参考訳(メタデータ) (2022-06-17T01:33:43Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。