論文の概要: NaVILA: Legged Robot Vision-Language-Action Model for Navigation
- arxiv url: http://arxiv.org/abs/2412.04453v2
- Date: Mon, 17 Feb 2025 18:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:03:33.244510
- Title: NaVILA: Legged Robot Vision-Language-Action Model for Navigation
- Title(参考訳): NaVILA:ナビゲーションのための脚付きロボットビジョンランゲージ・アクションモデル
- Authors: An-Chieh Cheng, Yandong Ji, Zhaojing Yang, Zaitian Gongye, Xueyan Zou, Jan Kautz, Erdem Bıyık, Hongxu Yin, Sifei Liu, Xiaolong Wang,
- Abstract要約: 人間の言語命令を低レベルの脚関節動作に翻訳するのは簡単ではない。
そこで我々は,VLA(Vision-Language-Action Model)とロコモーションスキルを一体化した2レベルフレームワークであるNaVILAを提案する。
NaVILAは既存のベンチマークのアプローチを大幅に改善している。
- 参考スコア(独自算出の注目度): 60.00462044102051
- License:
- Abstract: This paper proposes to solve the problem of Vision-and-Language Navigation with legged robots, which not only provides a flexible way for humans to command but also allows the robot to navigate through more challenging and cluttered scenes. However, it is non-trivial to translate human language instructions all the way to low-level leg joint actions. We propose NaVILA, a 2-level framework that unifies a Vision-Language-Action model (VLA) with locomotion skills. Instead of directly predicting low-level actions from VLA, NaVILA first generates mid-level actions with spatial information in the form of language, (e.g., "moving forward 75cm"), which serves as an input for a visual locomotion RL policy for execution. NaVILA substantially improves previous approaches on existing benchmarks. The same advantages are demonstrated in our newly developed benchmarks with IsaacLab, featuring more realistic scenes, low-level controls, and real-world robot experiments. We show more results at https://navila-bot.github.io/
- Abstract(参考訳): 本稿では,ロボットによる視覚・言語ナビゲーションの課題を解決することを提案する。
しかし、人間の言語命令を低レベルの脚関節動作に翻訳するのは簡単ではない。
そこで我々は,VLA(Vision-Language-Action Model)とロコモーションスキルを一体化した2レベルフレームワークであるNaVILAを提案する。
低レベルのアクションを直接VLAから予測する代わりに、NaVILAはまず、実行のための視覚的移動RLポリシーの入力として機能する言語(例えば、前方75cm)の形で空間情報を持つ中間レベルのアクションを生成する。
NaVILAは既存のベンチマークのアプローチを大幅に改善している。
私たちがIsaacLabで新たに開発したベンチマークでは、よりリアルなシーン、低レベルなコントロール、現実世界のロボット実験など、同様の利点が示されています。
より詳しい結果はhttps://navila-bot.github.io/で紹介します。
関連論文リスト
- RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。
パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。
実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-15T19:22:51Z) - Yell At Your Robot: Improving On-the-Fly from Language Corrections [84.09578841663195]
高いレベルのポリシーは、人間のフィードバックによって言語修正の形で容易に管理できることを示す。
このフレームワークは、ロボットがリアルタイムの言語フィードバックに迅速に適応するだけでなく、このフィードバックを反復的なトレーニングスキームに組み込むことを可能にする。
論文 参考訳(メタデータ) (2024-03-19T17:08:24Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - ViNL: Visual Navigation and Locomotion Over Obstacles [36.46953494419389]
障害物を用いた視覚ナビゲーションとロコモーション(ViNL)について述べる。
四足歩行ロボットは、道にある小さな障害物を踏み越えながら、見えないアパートを移動することができる。
ViNLは,(1)不慣れな屋内環境における目標座標にロボットを誘導する線形および角速度コマンドを出力する視覚的ナビゲーションポリシーと,(2)ロボットの関節を制御し,提供された速度コマンドに従って障害物を踏むことを避ける視覚的移動ポリシーとから構成される。
論文 参考訳(メタデータ) (2022-10-26T15:38:28Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。