論文の概要: Navigation World Models
- arxiv url: http://arxiv.org/abs/2412.03572v1
- Date: Wed, 04 Dec 2024 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:05.241055
- Title: Navigation World Models
- Title(参考訳): ナビゲーションワールドモデル
- Authors: Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun,
- Abstract要約: 本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
- 参考スコア(独自算出の注目度): 68.58459393846461
- License:
- Abstract: Navigation is a fundamental skill of agents with visual-motor capabilities. We introduce a Navigation World Model (NWM), a controllable video generation model that predicts future visual observations based on past observations and navigation actions. To capture complex environment dynamics, NWM employs a Conditional Diffusion Transformer (CDiT), trained on a diverse collection of egocentric videos of both human and robotic agents, and scaled up to 1 billion parameters. In familiar environments, NWM can plan navigation trajectories by simulating them and evaluating whether they achieve the desired goal. Unlike supervised navigation policies with fixed behavior, NWM can dynamically incorporate constraints during planning. Experiments demonstrate its effectiveness in planning trajectories from scratch or by ranking trajectories sampled from an external policy. Furthermore, NWM leverages its learned visual priors to imagine trajectories in unfamiliar environments from a single input image, making it a flexible and powerful tool for next-generation navigation systems.
- Abstract(参考訳): ナビゲーションは視覚運動能力を持つエージェントの基本的なスキルである。
我々は,過去の観測とナビゲーション行動に基づいて将来の視覚的観察を予測する制御可能な映像生成モデルであるナビゲーション・ワールド・モデル(NWM)を導入する。
複雑な環境力学を捉えるため、NWMは条件拡散変換器(CDiT)を採用し、人間とロボットのエージェントの多様なエゴセントリックなビデオのコレクションを訓練し、最大10億のパラメータをスケールした。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
固定動作を伴う教師付きナビゲーションポリシーとは異なり、NWMは計画中の制約を動的に組み込むことができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
さらに、NWMは学習した視覚的先行情報を利用して、単一の入力画像から未知の環境の軌跡を想像し、次世代ナビゲーションシステムのための柔軟で強力なツールとなる。
関連論文リスト
- ViNT: A Foundation Model for Visual Navigation [52.2571739391896]
Visual Navigation Transformer (ViNT) は視覚に基づくロボットナビゲーションの基礎モデルである。
ViNTは、任意のナビゲーションデータセットで使用可能な、汎用的な目標達成目標でトレーニングされている。
特定のデータセットでトレーニングされたスペシャリストモデルよりも優れた、肯定的な転送を示す。
論文 参考訳(メタデータ) (2023-06-26T16:57:03Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - Learning to Predict Navigational Patterns from Partial Observations [63.04492958425066]
本稿では,実環境におけるナビゲーションのパターンを,部分的な観察のみから推測する,初めての自己教師型学習(SSL)手法を提案する。
我々は、DSLPフィールドに最大極大グラフを適合させることにより、グローバルなナビゲーションパターンを推論する方法を実証する。
実験により,我々のSSLモデルはnuScenesデータセット上で2つのSOTA教師付きレーングラフ予測モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-04-26T02:08:46Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Control Transformer: Robot Navigation in Unknown Environments through
PRM-Guided Return-Conditioned Sequence Modeling [0.0]
サンプルベース確率的ロードマッププランナによって導かれる低レベルポリシーから返却条件付きシーケンスをモデル化する制御変換器を提案する。
制御トランスフォーマーは迷路を通り、未知の環境へ移動できることを示す。
論文 参考訳(メタデータ) (2022-11-11T18:44:41Z) - Topological Planning with Transformers for Vision-and-Language
Navigation [31.64229792521241]
トポロジカルマップを用いた視覚・言語ナビゲーション(VLN)のモジュール化手法を提案する。
自然言語指導とトポロジカルマップが与えられた場合,マップ内のナビゲーション計画を予測するために注意機構を利用する。
実験では,従来のエンドツーエンドアプローチを上回り,解釈可能なナビゲーションプランを生成し,バックトラックなどのインテリジェントな行動を示す。
論文 参考訳(メタデータ) (2020-12-09T20:02:03Z) - APPLD: Adaptive Planner Parameter Learning from Demonstration [48.63930323392909]
本稿では,既存のナビゲーションシステムを新しい複雑な環境に適用可能な,適応プランナー学習(Adaptive Planner Learning from Demonstration)のAPPLDを紹介する。
APPLDは異なる環境で異なるナビゲーションシステムを実行する2つのロボットで検証されている。
実験結果から,APPLDはナビゲーションシステムよりも,デフォルトパラメータや専門家パラメータ,さらには人間実証者自体よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-31T21:15:16Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。