論文の概要: Learning with a Mole: Transferable latent spatial representations for
navigation without reconstruction
- arxiv url: http://arxiv.org/abs/2306.03857v2
- Date: Fri, 29 Sep 2023 12:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 18:16:11.869239
- Title: Learning with a Mole: Transferable latent spatial representations for
navigation without reconstruction
- Title(参考訳): moleによる学習:再構成のないナビゲーションのための転送可能な潜在空間表現
- Authors: Guillaume Bono, Leonid Antsfeld, Assem Sadek, Gianluca Monaci,
Christian Wolf
- Abstract要約: ほとんどのエンドツーエンドの学習アプローチでは、表現は潜伏しており、通常は明確に定義された解釈を持っていない。
本研究では,目的とする下流タスクとは無関係にシーンの動作可能な表現を学習することを提案する。
学習された表現は、進路から分岐する複数の短いエピソードをナビゲートするように訓練された盲人補助エージェントによって最適化される。
- 参考スコア(独自算出の注目度): 12.845774297648736
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Agents navigating in 3D environments require some form of memory, which
should hold a compact and actionable representation of the history of
observations useful for decision taking and planning. In most end-to-end
learning approaches the representation is latent and usually does not have a
clearly defined interpretation, whereas classical robotics addresses this with
scene reconstruction resulting in some form of map, usually estimated with
geometry and sensor models and/or learning. In this work we propose to learn an
actionable representation of the scene independently of the targeted downstream
task and without explicitly optimizing reconstruction. The learned
representation is optimized by a blind auxiliary agent trained to navigate with
it on multiple short sub episodes branching out from a waypoint and, most
importantly, without any direct visual observation. We argue and show that the
blindness property is important and forces the (trained) latent representation
to be the only means for planning. With probing experiments we show that the
learned representation optimizes navigability and not reconstruction. On
downstream tasks we show that it is robust to changes in distribution, in
particular the sim2real gap, which we evaluate with a real physical robot in a
real office building, significantly improving performance.
- Abstract(参考訳): 3D環境をナビゲートするエージェントは何らかのメモリを必要とするため、意思決定や計画に有用な観察履歴のコンパクトで実用的な表現を保持する必要がある。
ほとんどのエンド・ツー・エンドの学習アプローチでは、表現は潜在的で、通常は明確な解釈を持っていないが、クラシック・ロボティクスはこれをシーンの再構築で解決し、幾何やセンサモデルや学習で推定される何らかの形式の地図を生成する。
本研究では,目的とする下流タスクとは独立してシーンの動作可能な表現を,明示的に再構成を最適化することなく学習することを提案する。
学習された表現は、視覚的に直接観察することなく、複数の短いサブエピソードをナビゲートするように訓練された視覚補助エージェントによって最適化される。
我々は盲目性が重要であり、(訓練された)潜在表現が計画の唯一の手段であることを議論し示す。
探索実験により,学習表現が再現性ではなくナビゲータビリティを最適化することを示す。
下流のタスクでは、分散の変化、特に、実際のオフィスビルで実際の物理的ロボットで評価したsim2real gapにロバストであり、パフォーマンスが大幅に向上することを示している。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。
局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文 参考訳(メタデータ) (2020-09-30T14:44:54Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Mutual Information Maximization for Robust Plannable Representations [82.83676853746742]
モデルに基づく強化学習のための情報理論表現学習アルゴリズムMIROを提案する。
提案手法は, 邪魔や散らかったシーンの存在下で, 再建目的よりも頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-16T21:58:47Z) - Semantically-Guided Representation Learning for Self-Supervised
Monocular Depth [40.49380547487908]
本稿では,自己教師付き表現学習を指導するために,事前訓練型セマンティックセマンティック・セマンティクス・ネットワークを利用した新しいアーキテクチャを提案する。
本手法は,全画素,細粒度細部,意味カテゴリーごとの自己教師型単眼深度予測のための技術の現状を改善した。
論文 参考訳(メタデータ) (2020-02-27T18:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。