論文の概要: ViNT: A Foundation Model for Visual Navigation
- arxiv url: http://arxiv.org/abs/2306.14846v2
- Date: Tue, 24 Oct 2023 06:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:12:55.911310
- Title: ViNT: A Foundation Model for Visual Navigation
- Title(参考訳): vint:ビジュアルナビゲーションのための基礎モデル
- Authors: Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin
Black, Noriaki Hirose, Sergey Levine
- Abstract要約: Visual Navigation Transformer (ViNT) は視覚に基づくロボットナビゲーションの基礎モデルである。
ViNTは、任意のナビゲーションデータセットで使用可能な、汎用的な目標達成目標でトレーニングされている。
特定のデータセットでトレーニングされたスペシャリストモデルよりも優れた、肯定的な転送を示す。
- 参考スコア(独自算出の注目度): 52.2571739391896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose pre-trained models ("foundation models") have enabled
practitioners to produce generalizable solutions for individual machine
learning problems with datasets that are significantly smaller than those
required for learning from scratch. Such models are typically trained on large
and diverse datasets with weak supervision, consuming much more training data
than is available for any individual downstream application. In this paper, we
describe the Visual Navigation Transformer (ViNT), a foundation model that aims
to bring the success of general-purpose pre-trained models to vision-based
robotic navigation. ViNT is trained with a general goal-reaching objective that
can be used with any navigation dataset, and employs a flexible
Transformer-based architecture to learn navigational affordances and enable
efficient adaptation to a variety of downstream navigational tasks. ViNT is
trained on a number of existing navigation datasets, comprising hundreds of
hours of robotic navigation from a variety of different robotic platforms, and
exhibits positive transfer, outperforming specialist models trained on singular
datasets. ViNT can be augmented with diffusion-based subgoal proposals to
explore novel environments, and can solve kilometer-scale navigation problems
when equipped with long-range heuristics. ViNT can also be adapted to novel
task specifications with a technique inspired by prompt-tuning, where the goal
encoder is replaced by an encoding of another task modality (e.g., GPS
waypoints or routing commands) embedded into the same space of goal tokens.
This flexibility and ability to accommodate a variety of downstream problem
domains establishes ViNT as an effective foundation model for mobile robotics.
For videos, code, and model checkpoints, see our project page at
https://visualnav-transformer.github.io.
- Abstract(参考訳): 汎用的事前学習モデル("foundation model")は、個々の機械学習問題に対して、スクラッチから学習するために必要なものよりもはるかに小さいデータセットを使って、一般化可能なソリューションを作成することができる。
このようなモデルは通常、弱い監督を持つ大規模で多様なデータセットでトレーニングされ、個々のダウンストリームアプリケーションで利用可能なものよりも多くのトレーニングデータを消費する。
本稿では,視覚に基づくロボットナビゲーションにおける汎用事前学習モデルの成功を目的とした基礎モデルである視覚ナビゲーショントランスフォーマ(vint)について述べる。
ViNTは、任意のナビゲーションデータセットで使用可能な汎用目標到達目標をトレーニングし、フレキシブルなTransformerベースのアーキテクチャを使用して、ナビゲーションの余裕を学習し、さまざまな下流ナビゲーションタスクへの効率的な適応を可能にする。
vintは、さまざまなロボットプラットフォームから数百時間のロボットナビゲーションを含む、既存の多くのナビゲーションデータセットでトレーニングされており、特異なデータセットでトレーニングされた専門家モデルよりも優れた、ポジティブな転送を示す。
ViNTは、新しい環境を探索するための拡散に基づくサブゴールの提案で拡張することができ、長距離ヒューリスティックスを備えた場合のキロメートル規模のナビゲーション問題を解決することができる。
ViNTはプロンプトチューニングにインスパイアされた技法で新しいタスク仕様に適応することができ、ゴールエンコーダはゴールトークンの同じ空間に埋め込まれた別のタスクモダリティ(GPSウェイポイントやルーティングコマンドなど)のエンコーディングに置き換えられる。
様々な下流問題領域に対応する柔軟性と能力は、モバイルロボティクスの効果的な基盤モデルとしてViNTを確立している。
ビデオ、コード、モデルチェックポイントについては、プロジェクトページ https://visualnav-transformer.github.io を参照してください。
関連論文リスト
- Vision-and-Language Navigation Generative Pretrained Transformer [0.0]
VLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer)
トランスフォーマーデコーダモデル(GPT2)を採用してトラジェクトリシーケンスの依存関係をモデル化し、歴史的エンコーディングモジュールの必要性を回避している。
VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
論文 参考訳(メタデータ) (2024-05-27T09:42:04Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Polyline Based Generative Navigable Space Segmentation for Autonomous
Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。
提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-29T19:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。