論文の概要: LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action
- arxiv url: http://arxiv.org/abs/2207.04429v1
- Date: Sun, 10 Jul 2022 10:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 07:23:35.013265
- Title: LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action
- Title(参考訳): LM-Nav:言語,視覚,行動の大規模事前学習モデルを用いたロボットナビゲーション
- Authors: Dhruv Shah, Blazej Osinski, Brian Ichter, Sergey Levine
- Abstract要約: 本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
- 参考スコア(独自算出の注目度): 76.71101507291473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-conditioned policies for robotic navigation can be trained on large,
unannotated datasets, providing for good generalization to real-world settings.
However, particularly in vision-based settings where specifying goals requires
an image, this makes for an unnatural interface. Language provides a more
convenient modality for communication with robots, but contemporary methods
typically require expensive supervision, in the form of trajectories annotated
with language descriptions. We present a system, LM-Nav, for robotic navigation
that enjoys the benefits of training on unannotated large datasets of
trajectories, while still providing a high-level interface to the user. Instead
of utilizing a labeled instruction following dataset, we show that such a
system can be constructed entirely out of pre-trained models for navigation
(ViNG), image-language association (CLIP), and language modeling (GPT-3),
without requiring any fine-tuning or language-annotated robot data. We
instantiate LM-Nav on a real-world mobile robot and demonstrate long-horizon
navigation through complex, outdoor environments from natural language
instructions. For videos of our experiments, code release, and an interactive
Colab notebook that runs in your browser, please check out our project page
https://sites.google.com/view/lmnav
- Abstract(参考訳): ロボットナビゲーションのための目標条件付きポリシーは、大規模で注釈のないデータセットでトレーニングすることができる。
しかし、特に目標を特定するために画像を必要とする視覚ベースの設定では、これは不自然なインターフェースとなる。
言語はロボットとのコミュニケーションにより便利なモダリティを提供するが、現代の手法は一般的に、言語記述に注釈を付けた軌跡の形で、高価な監督を必要とする。
我々は,未注釈の大規模軌跡データセットのトレーニングの恩恵を享受しつつ,ユーザに対してハイレベルなインターフェースを提供するロボットナビゲーションシステムLM-Navを提案する。
データセットに続くラベル付き命令を使用する代わりに,事前学習されたナビゲーションモデル(ving),画像言語連想モデル(clip),言語モデリングモデル(gpt-3)から,微調整や言語アノテーション付きロボットデータを必要としないシステムを構築することができることを示す。
実世界の移動ロボット上でLM-Navをインスタンス化し、自然言語による複雑な屋外環境における長距離ナビゲーションを実演する。
実験のビデオやコードリリース,ブラウザで動作するインタラクティブなColabノートブックについては,プロジェクトページ https://sites.google.com/view/lmnav をご覧ください。
関連論文リスト
- FASTNav: Fine-tuned Adaptive Small-language-models Trained for Multi-point Robot Navigation [10.3997505825422]
本稿では,ロボットナビゲーションのための軽量言語モデル(SLM)の強化手法であるFASTNavを提案する。
シミュレーションと実ロボットの両方でFASTNavを用いてモデルをトレーニングし、評価し、低コスト、高精度、低応答時間でデプロイできることを証明した。
論文 参考訳(メタデータ) (2024-11-20T12:28:13Z) - Vision and Language Navigation in the Real World via Online Visual
Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。
実世界のVLN課題に対処する新しい枠組みを提案する。
未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文 参考訳(メタデータ) (2023-10-16T20:44:09Z) - Interactive Navigation in Environments with Traversable Obstacles Using
Large Language and Vision-Language Models [14.871309526022516]
本稿では,大規模言語と視覚言語を用いた対話型ナビゲーションフレームワークを提案する。
我々は、微調整なしで効果的な経路計画を行うためのアクション対応コストマップを作成する。
すべての実験結果から,提案フレームワークの有効性と多様な環境への適応性が確認された。
論文 参考訳(メタデータ) (2023-10-13T05:59:03Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。