論文の概要: What do navigation agents learn about their environment?
- arxiv url: http://arxiv.org/abs/2206.08500v1
- Date: Fri, 17 Jun 2022 01:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:35:21.716789
- Title: What do navigation agents learn about their environment?
- Title(参考訳): ナビゲーションエージェントは環境について何を学ぶのか?
- Authors: Kshitij Dwivedi, Gemma Roig, Aniruddha Kembhavi, Roozbeh Mottaghi
- Abstract要約: 本稿では、ポイントゴールナビゲーションエージェントとオブジェクトゴールナビゲーションエージェントのための、エンボディード・アグエント(iSEE)の解釈可能性システムについて紹介する。
これらのエージェントが生成する動的表現をiSEEを用いて探索し,エージェントや環境に関する情報を提示する。
- 参考スコア(独自算出の注目度): 39.74076893981299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's state of the art visual navigation agents typically consist of large
deep learning models trained end to end. Such models offer little to no
interpretability about the learned skills or the actions of the agent taken in
response to its environment. While past works have explored interpreting deep
learning models, little attention has been devoted to interpreting embodied AI
systems, which often involve reasoning about the structure of the environment,
target characteristics and the outcome of one's actions. In this paper, we
introduce the Interpretability System for Embodied agEnts (iSEE) for Point Goal
and Object Goal navigation agents. We use iSEE to probe the dynamic
representations produced by these agents for the presence of information about
the agent as well as the environment. We demonstrate interesting insights about
navigation agents using iSEE, including the ability to encode reachable
locations (to avoid obstacles), visibility of the target, progress from the
initial spawn location as well as the dramatic effect on the behaviors of
agents when we mask out critical individual neurons. The code is available at:
https://github.com/allenai/iSEE
- Abstract(参考訳): 今日の最先端のビジュアルナビゲーションエージェントは、通常、エンドツーエンドでトレーニングされた大きなディープラーニングモデルで構成される。
このようなモデルは、その環境に応じて取られたエージェントの学習スキルや行動について、ほとんど、あるいは全く解釈できない。
過去の研究は深層学習モデルの解釈を探求してきたが、環境の構造、対象特性、行動の結果を推論することを含む具体化されたaiシステムの解釈にはほとんど注意が払われていない。
本稿では,ポイントゴールおよびオブジェクトゴールナビゲーションエージェントのための具体化エージェント(isee)の解釈可能性システムを提案する。
我々は,これらのエージェントが生成する動的表現をiseeを用いて調査し,エージェントと環境に関する情報を収集する。
iSEEを用いたナビゲーションエージェントに関する興味深い知見として、到達可能な位置(障害物を避けるために)を符号化する能力、ターゲットの視認性、初期発生位置からの進展、重要な個々のニューロンを隠蔽する際のエージェントの行動に対する劇的な影響などを挙げる。
コードは、https://github.com/allenai/iSEEで入手できる。
関連論文リスト
- Interpretable Brain-Inspired Representations Improve RL Performance on
Visual Navigation Tasks [0.0]
本研究では,視覚データの解釈可能な表現を生成することにより,遅い特徴解析(SFA)の手法が両方の制約を克服することを示す。
我々はSFAを現代の強化学習の文脈で採用し、表現を分析し比較し、階層的なSFAがナビゲーションタスクにおいて他の特徴抽出器よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T11:35:01Z) - NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Visual Navigation with Spatial Attention [26.888916048408895]
この作業は、オブジェクト目標のビジュアルナビゲーションに焦点を当て、与えられたクラスからオブジェクトの場所を見つけることを目指しています。
強化学習アルゴリズムを用いてエージェントのポリシーを学習することを提案する。
我々の重要な貢献は、視覚ナビゲーションタスクのための新しい注意確率モデルである。
論文 参考訳(メタデータ) (2021-04-20T07:39:52Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Diagnosing the Environment Bias in Vision-and-Language Navigation [102.02103792590076]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、与えられた環境を探索し、所望の目標地点に到達する必要がある。
VLNを研究する最近の研究は、目に見えない環境でのテストでは、顕著なパフォーマンス低下を観察しており、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。
本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。
論文 参考訳(メタデータ) (2020-05-06T19:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。