Fugu-MT 論文翻訳(概要): Visual Pre-training for Navigation: What Can We Learn from Noise?

論文の概要: Visual Pre-training for Navigation: What Can We Learn from Noise?

arxiv url: http://arxiv.org/abs/2207.00052v3
Date: Wed, 26 Jul 2023 21:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-28 20:49:09.988583
Title: Visual Pre-training for Navigation: What Can We Learn from Noise?
Title（参考訳）: ナビゲーションのためのビジュアル事前学習:ノイズから何が学べる?
Authors: Yanwei Wang, Ching-Yun Ko, Pulkit Agrawal
Abstract要約: 目標に対応する現在のビューの作物の位置と大きさを予測することで,ナビゲーションポリシーが学習可能であることを示す。また,このようなランダムな作物予測を,自然の家庭画像によく適応する合成ノイズ画像に基づいて,自己教師方式で訓練することも示す。学習した表現はブートストラップでナビゲーションポリシーを学習する。
参考スコア（独自算出の注目度）: 16.203790885059373
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: One powerful paradigm in visual navigation is to predict actions from observations directly. Training such an end-to-end system allows representations useful for downstream tasks to emerge automatically. However, the lack of inductive bias makes this system data inefficient. We hypothesize a sufficient representation of the current view and the goal view for a navigation policy can be learned by predicting the location and size of a crop of the current view that corresponds to the goal. We further show that training such random crop prediction in a self-supervised fashion purely on synthetic noise images transfers well to natural home images. The learned representation can then be bootstrapped to learn a navigation policy efficiently with little interaction data. The code is available at https://yanweiw.github.io/noise2ptz
Abstract（参考訳）: 視覚ナビゲーションの強力なパラダイムの一つは、観察から直接行動を予測することである。このようなエンドツーエンドシステムのトレーニングにより、下流タスクが自動的に現れるのに役立つ表現が可能になる。しかし、帰納バイアスの欠如により、このシステムデータは非効率になる。我々は現在の視点の十分な表現とナビゲーションポリシーの目標ビューを、目標に対応する現在の視点の作物の位置と大きさを予測することによって学習できると仮定する。さらに、合成ノイズ画像から自然の家庭画像へ変換する自己教師方式で、このようなランダムな作物予測を訓練することが示される。そして、学習した表現をブートストラップして、対話データが少なく、効率的にナビゲーションポリシーを学ぶことができる。コードはhttps://yanweiw.github.io/noise2ptzで入手できる。

関連論文リスト

VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文参考訳（メタデータ） (2024-03-12T22:33:08Z)
Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文参考訳（メタデータ） (2024-02-29T06:31:18Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
Learning Navigational Visual Representations with Semantic Map Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。 Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文参考訳（メタデータ） (2023-07-23T14:01:05Z)
Learning to Predict Navigational Patterns from Partial Observations [63.04492958425066]
本稿では,実環境におけるナビゲーションのパターンを,部分的な観察のみから推測する,初めての自己教師型学習(SSL)手法を提案する。我々は、DSLPフィールドに最大極大グラフを適合させることにより、グローバルなナビゲーションパターンを推論する方法を実証する。実験により,我々のSSLモデルはnuScenesデータセット上で2つのSOTA教師付きレーングラフ予測モデルより優れていることが示された。
論文参考訳（メタデータ） (2023-04-26T02:08:46Z)
ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文参考訳（メタデータ） (2022-12-12T13:10:19Z)
Lifelong Topological Visual Navigation [16.41858724205884]
本稿では,生涯ナビゲーション性能を時間とともに向上させるグラフ更新戦略を用いた学習型ビジュアルナビゲーション手法を提案する。画像に基づくトポロジグラフを構築するためのサンプリングベースの計画アルゴリズムから着想を得た結果,スペーサーグラフはベースライン法に比べてナビゲーション性能が高い。固定的なトレーニング環境から学習するコントローラとは異なり、ロボットが配置される実環境から比較的小さなデータセットを使ってモデルを微調整できることが示される。
論文参考訳（メタデータ） (2021-10-16T06:16:14Z)
Augmenting Imitation Experience via Equivariant Representations [2.707154152696381]
近辺の視点埋め込みと行動の補間に基づく視覚ナビゲーションのためのデータ拡張には、別の実用的な代替方法があることが示される。本手法は,2次元および3次元の視覚ナビゲーション問題の幾何学的形状を利用し,同変埋め込みの関数であるポリシーに依存している。シミュレーションの結果、この方法でトレーニングしたポリシーは、クロストラックエラーを低減し、標準拡張法でトレーニングしたポリシーに比べて介入を少なくすることを示した。
論文参考訳（メタデータ） (2021-10-14T18:56:08Z)
Unsupervised Domain Adaptation for Visual Navigation [115.85181329193092]
視覚ナビゲーションのための教師なし領域適応手法を提案する。本手法では,対象領域の画像をソース領域に変換し,ナビゲーションポリシで学習した表現と一致するようにする。
論文参考訳（メタデータ） (2020-10-27T18:22:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。