論文の概要: Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks
- arxiv url: http://arxiv.org/abs/2412.06224v1
- Date: Mon, 09 Dec 2024 05:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:53:22.298823
- Title: Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks
- Title(参考訳): Uni-NaVid: 身体的ナビゲーションタスクを統一するためのビデオベースビジョンランゲージ・アクションモデル
- Authors: Jiazhao Zhang, Kunyu Wang, Shaoan Wang, Minghan Li, Haoran Liu, Songlin Wei, Zhongyuan Wang, Zhizheng Zhang, He Wang,
- Abstract要約: 既存のボディードナビゲーションのモデルは、現実の世界で実践的なジェネラリストとして機能するには足りていない。
多様な具体的ナビゲーションタスクを統合するために設計された,ビデオベースの視覚言語アクションモデルであるUni-NaVidを提案する。
Uni-NaVidは、一般的に使われているすべてのナビゲーションタスクの入力および出力データ構成によってこれを達成している。
- 参考スコア(独自算出の注目度): 24.690910258151693
- License:
- Abstract: A practical navigation agent must be capable of handling a wide range of interaction demands, such as following instructions, searching objects, answering questions, tracking people, and more. Existing models for embodied navigation fall short of serving as practical generalists in the real world, as they are often constrained by specific task configurations or pre-defined maps with discretized waypoints. In this work, we present Uni-NaVid, the first video-based vision-language-action (VLA) model designed to unify diverse embodied navigation tasks and enable seamless navigation for mixed long-horizon tasks in unseen real-world environments. Uni-NaVid achieves this by harmonizing the input and output data configurations for all commonly used embodied navigation tasks and thereby integrating all tasks in one model. For training Uni-NaVid, we collect 3.6 million navigation data samples in total from four essential navigation sub-tasks and foster synergy in learning across them. Extensive experiments on comprehensive navigation benchmarks clearly demonstrate the advantages of unification modeling in Uni-NaVid and show it achieves state-of-the-art performance. Additionally, real-world experiments confirm the model's effectiveness and efficiency, shedding light on its strong generalizability.
- Abstract(参考訳): 実用的なナビゲーションエージェントは、指示に従う、オブジェクトを検索する、質問に答える、人を追跡するなど、幅広いインタラクション要求を処理できなければならない。
既存のボディードナビゲーションのモデルは、特定のタスク設定や、離散化されたウェイポイントを持つ事前定義されたマップによって制約されることが多いため、現実世界の実践的なジェネリストとして機能しない。
そこで本研究では,Uni-NaVidというビデオベースの視覚言語アクション(VLA)モデルを提案する。
Uni-NaVidは、一般的に使われているすべてのナビゲーションタスクに対して、入力と出力のデータ構成を調和させ、1つのモデルにすべてのタスクを統合することで、これを実現する。
Uni-NaVidのトレーニングには、4つの重要なナビゲーションサブタスクから合計360万のナビゲーションデータサンプルを収集し、それらの間の学習においてシナジーを育む。
包括的ナビゲーションベンチマークに関する大規模な実験は、Uni-NaVidにおける統一モデリングの利点を明らかに示し、最先端のパフォーマンスを実現することを示す。
さらに、実世界の実験はモデルの有効性と効率を確認し、その強い一般化性に光を当てる。
関連論文リスト
- Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation [11.510823733292519]
大規模言語モデルから抽出したオブジェクト間関係の共通知識を組み込んだデータセットに基づいて,データ駆動型モジュール型アプローチを提案する。
Habitatシミュレーターの結果、我々のフレームワークは平均10.6%の効率でベースラインを上回り、Path Length(SPL)が重み付けした成功(Success)を実証した。
論文 参考訳(メタデータ) (2024-03-21T06:32:36Z) - Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。
スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。
我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-12-04T16:32:51Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - ViNT: A Foundation Model for Visual Navigation [52.2571739391896]
Visual Navigation Transformer (ViNT) は視覚に基づくロボットナビゲーションの基礎モデルである。
ViNTは、任意のナビゲーションデータセットで使用可能な、汎用的な目標達成目標でトレーニングされている。
特定のデータセットでトレーニングされたスペシャリストモデルよりも優れた、肯定的な転送を示す。
論文 参考訳(メタデータ) (2023-06-26T16:57:03Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。
視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-30T11:53:49Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation [23.877609358505268]
最近の研究は、地図のようなメモリが長距離ナビゲーションタスクに有用であることを示している。
本稿では,実環境において,エピソード特有のオブジェクト列へのナビゲーションを必要とするマルチオンタスクを提案する。
様々なエージェントモデルがナビゲーションタスクの複雑度をまたいでどのように振る舞うかを検討する。
論文 参考訳(メタデータ) (2020-12-07T18:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。