論文の概要: Visual Pre-training for Navigation: What Can We Learn from Noise?
- arxiv url: http://arxiv.org/abs/2207.00052v1
- Date: Thu, 30 Jun 2022 18:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 12:22:14.712876
- Title: Visual Pre-training for Navigation: What Can We Learn from Noise?
- Title(参考訳): ナビゲーションのためのビジュアル事前学習:ノイズから何が学べる?
- Authors: Yanwei Wang, Ching-Yun Ko
- Abstract要約: ビジュアルナビゲーションでは、エージェントは、そのビューとアクションがどのように変化するかを関連付けることで、手動設計なしでナビゲートを学ぶことができる。
そこで本研究では、自然の家庭画像に対して、ランダムなノイズ画像の移動に基づいて、自己教師方式で、このようなランダムな作物予測を訓練することを示す。
学習した表現はブートストラップでナビゲーションポリシーを学習する。
- 参考スコア(独自算出の注目度): 6.231304401179968
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A powerful paradigm for sensorimotor control is to predict actions from
observations directly. Training such an end-to-end system allows
representations that are useful for the downstream tasks to emerge
automatically. In visual navigation, an agent can learn to navigate without any
manual designs by correlating how its views change with the actions being
taken. However, the lack of inductive bias makes this system data-inefficient
and impractical in scenarios like search and rescue, where interacting with the
environment to collect data is costly. We hypothesize a sufficient
representation of the current view and the goal view for a navigation policy
can be learned by predicting the location and size of a crop of the current
view that corresponds to the goal. We further show that training such random
crop prediction in a self-supervised fashion purely on random noise images
transfers well to natural home images. The learned representation can then be
bootstrapped to learn a navigation policy efficiently with little interaction
data. Code is available at https://github.com/yanweiw/noise2ptz.
- Abstract(参考訳): sensorimotorコントロールの強力なパラダイムは、観察から直接行動を予測することである。
このようなエンドツーエンドシステムのトレーニングにより、下流タスクが自動的に現れるのに役立つ表現が可能になる。
ビジュアルナビゲーションでは、エージェントは、ビューがどう変化するかとアクションを関連付けることで、手動設計なしでナビゲートを学ぶことができる。
しかし、インダクティブバイアスの欠如により、このシステムは、検索や救難のようなシナリオでは、データ非効率で非現実的になり、データ収集のための環境との相互作用はコストがかかる。
我々は現在の視点の十分な表現とナビゲーションポリシーの目標ビューを、目標に対応する現在の視点の作物の位置と大きさを予測することによって学習できると仮定する。
さらに, 自然の家庭画像に対して, ランダムなノイズ画像の移動に基づいて, 自己教師方式でランダムな作物予測を訓練することを示す。
そして、学習した表現をブートストラップして、対話データが少なく、効率的にナビゲーションポリシーを学ぶことができる。
コードはhttps://github.com/yanweiw/noise2ptzで入手できる。
関連論文リスト
- VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Learning to Predict Navigational Patterns from Partial Observations [63.04492958425066]
本稿では,実環境におけるナビゲーションのパターンを,部分的な観察のみから推測する,初めての自己教師型学習(SSL)手法を提案する。
我々は、DSLPフィールドに最大極大グラフを適合させることにより、グローバルなナビゲーションパターンを推論する方法を実証する。
実験により,我々のSSLモデルはnuScenesデータセット上で2つのSOTA教師付きレーングラフ予測モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-04-26T02:08:46Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Lifelong Topological Visual Navigation [16.41858724205884]
本稿では,生涯ナビゲーション性能を時間とともに向上させるグラフ更新戦略を用いた学習型ビジュアルナビゲーション手法を提案する。
画像に基づくトポロジグラフを構築するためのサンプリングベースの計画アルゴリズムから着想を得た結果,スペーサーグラフはベースライン法に比べてナビゲーション性能が高い。
固定的なトレーニング環境から学習するコントローラとは異なり、ロボットが配置される実環境から比較的小さなデータセットを使ってモデルを微調整できることが示される。
論文 参考訳(メタデータ) (2021-10-16T06:16:14Z) - Augmenting Imitation Experience via Equivariant Representations [2.707154152696381]
近辺の視点埋め込みと行動の補間に基づく視覚ナビゲーションのためのデータ拡張には、別の実用的な代替方法があることが示される。
本手法は,2次元および3次元の視覚ナビゲーション問題の幾何学的形状を利用し,同変埋め込みの関数であるポリシーに依存している。
シミュレーションの結果、この方法でトレーニングしたポリシーは、クロストラックエラーを低減し、標準拡張法でトレーニングしたポリシーに比べて介入を少なくすることを示した。
論文 参考訳(メタデータ) (2021-10-14T18:56:08Z) - Unsupervised Domain Adaptation for Visual Navigation [115.85181329193092]
視覚ナビゲーションのための教師なし領域適応手法を提案する。
本手法では,対象領域の画像をソース領域に変換し,ナビゲーションポリシで学習した表現と一致するようにする。
論文 参考訳(メタデータ) (2020-10-27T18:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。