論文の概要: Towards self-attention based visual navigation in the real world
- arxiv url: http://arxiv.org/abs/2209.07043v2
- Date: Mon, 19 Sep 2022 08:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 12:54:26.291616
- Title: Towards self-attention based visual navigation in the real world
- Title(参考訳): 自己注意型視覚ナビゲーションの実現に向けて
- Authors: Jaime Ruiz-Serra, Jack White, Stephen Petrie, Tatiana Kameneva, Chris
McCarthy
- Abstract要約: 視覚誘導ナビゲーションでは、タスク指向の意思決定を知らせるために複雑な視覚情報を処理する必要がある。
シミュレーションで訓練された深層強化学習エージェントは、現実世界に配備された時に満足のいく結果を示すことが多い。
これは、4000以下のパラメータを使って3Dアクション空間をナビゲートする訓練に成功した、自己注意型エージェントの最初のデモンストレーションである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision guided navigation requires processing complex visual information to
inform task-orientated decisions. Applications include autonomous robots,
self-driving cars, and assistive vision for humans. A key element is the
extraction and selection of relevant features in pixel space upon which to base
action choices, for which Machine Learning techniques are well suited. However,
Deep Reinforcement Learning agents trained in simulation often exhibit
unsatisfactory results when deployed in the real-world due to perceptual
differences known as the $\textit{reality gap}$. An approach that is yet to be
explored to bridge this gap is self-attention. In this paper we (1) perform a
systematic exploration of the hyperparameter space for self-attention based
navigation of 3D environments and qualitatively appraise behaviour observed
from different hyperparameter sets, including their ability to generalise; (2)
present strategies to improve the agents' generalisation abilities and
navigation behaviour; and (3) show how models trained in simulation are capable
of processing real world images meaningfully in real time. To our knowledge,
this is the first demonstration of a self-attention based agent successfully
trained in navigating a 3D action space, using less than 4000 parameters.
- Abstract(参考訳): 視覚誘導ナビゲーションは、タスク指向の決定を知らせるために複雑な視覚情報を処理する必要がある。
アプリケーションには、自律ロボット、自動運転車、そして人間の補助的ビジョンが含まれる。
重要な要素は、ピクセル空間における関連する特徴の抽出と選択であり、その上でアクションの選択をベースとし、機械学習技術が適している。
しかし、シミュレーションで訓練されたDeep Reinforcement Learningエージェントは、$\textit{reality gap}$として知られる知覚的差異のため、現実世界にデプロイされた時に満足できない結果を示すことが多い。
このギャップを埋めるためにまだ検討されていないアプローチは、自己注意である。
本稿では,(1)自己追跡に基づく3次元環境のナビゲーションのためのハイパーパラメータ空間の体系的探索と,その一般化能力を含む異なるハイパーパラメータ集合から観測される行動の質的評価,(2)エージェントの一般化能力とナビゲーション行動を改善するための戦略,(3)シミュレーションで訓練されたモデルが実世界のイメージをリアルタイムに有意義に処理できることを示す。
われわれの知る限り、3Dアクション空間をナビゲートする訓練に成功し、4000パラメータ未満で成功したセルフアテンションベースのエージェントの最初の実演である。
関連論文リスト
- Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Robot Perception enables Complex Navigation Behavior via Self-Supervised
Learning [23.54696982881734]
本稿では、強化学習(RL)によるアクティブな目標駆動ナビゲーションタスクのためのロボット認識システムの統合手法を提案する。
提案手法は,1つの画像列から直接自己スーパービジョンを用いて得られる,コンパクトな動きと視覚知覚データを時間的に組み込む。
我々は,新しいインタラクティブなCityLearnフレームワークを用いて,実世界の運転データセットであるKITTIとOxford RobotCarのアプローチを実証した。
論文 参考訳(メタデータ) (2020-06-16T07:45:47Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。