論文の概要: DreamToNav: Generalizable Navigation for Robots via Generative Video Planning
- arxiv url: http://arxiv.org/abs/2603.06190v1
- Date: Fri, 06 Mar 2026 11:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.988411
- Title: DreamToNav: Generalizable Navigation for Robots via Generative Video Planning
- Title(参考訳): DreamToNav:ジェネレーティブビデオプランニングによるロボットの汎用ナビゲーション
- Authors: Valerii Serpiva, Jeffrin Sam, Chidera Simon, Hajira Amjad, Iana Zhura, Artem Lykov, Dzmitry Tsetserukou,
- Abstract要約: 私たちはDreamToNavを紹介します。DreamToNavは、生成ビデオモデルを使用して、直感的で人力によるループ制御を可能にする、新しい自律型ロボットフレームワークです。
室内ナビゲーション作業において,車輪付き移動ロボットと四足歩行ロボットの両方に対するアプローチを評価する。
DreamToNavは76.7%の成功率で、最終目標誤差は0.05-0.10m以内、軌道追跡誤差は0.15m以下である。
- 参考スコア(独自算出の注目度): 1.964570633684439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DreamToNav, a novel autonomous robot framework that uses generative video models to enable intuitive, human-in-the-loop control. Instead of relying on rigid waypoint navigation, users provide natural language prompts (e.g. ``Follow the person carefully''), which the system translates into executable motion. Our pipeline first employs Qwen 2.5-VL-7B-Instruct to refine vague user instructions into precise visual descriptions. These descriptions condition NVIDIA Cosmos 2.5, a state-of-the-art video foundation model, to synthesize a physically consistent video sequence of the robot performing the task. From this synthetic video, we extract a valid kinematic path using visual pose estimation, robot detection and trajectory recovery. By treating video generation as a planning engine, DreamToNav allows robots to visually "dream" complex behaviors before executing them, providing a unified framework for obstacle avoidance and goal-directed navigation without task-specific engineering. We evaluate the approach on both a wheeled mobile robot and a quadruped robot in indoor navigation tasks. DreamToNav achieves a success rate of 76.7%, with final goal errors typically within 0.05-0.10 m and trajectory tracking errors below 0.15 m. These results demonstrate that trajectories extracted from generative video predictions can be reliably executed on physical robots across different locomotion platforms.
- Abstract(参考訳): 私たちはDreamToNavを紹介します。DreamToNavは、生成ビデオモデルを使用して、直感的で人力によるループ制御を可能にする、新しい自律型ロボットフレームワークです。
厳格なウェイポイントナビゲーションに頼る代わりに、ユーザは自然言語のプロンプト(例えば ``Follow the person carefully''')を提供する。
我々のパイプラインはまずQwen 2.5-VL-7B-Instructを使用して、曖昧なユーザ命令を精密な視覚的記述に洗練する。
これらの記述は、タスクを実行するロボットの物理的に一貫したビデオシーケンスを合成するために、最先端のビデオ基盤モデルであるNVIDIA Cosmos 2.5を条件にしている。
この合成ビデオから,視覚的ポーズ推定,ロボット検出,軌道回復を用いて,有効な運動経路を抽出する。
ビデオ生成を計画エンジンとして扱うことで、DreamToNavはロボットが実行する前に複雑な動作を視覚的に"危険"にし、タスク固有のエンジニアリングなしで障害物回避と目標指向ナビゲーションのための統一されたフレームワークを提供する。
室内ナビゲーション作業において,車輪付き移動ロボットと四足歩行ロボットの両方に対するアプローチを評価する。
DreamToNavは76.7%の成功率で、最終目標誤差は0.05-0.10m以内、軌道追跡誤差は0.15m以下である。
これらの結果から,生成的映像予測から抽出した軌跡を,異なる移動プラットフォーム上で物理的ロボット上で確実に実行できることが示唆された。
関連論文リスト
- ImagiNav: Scalable Embodied Navigation via Generative Visual Prediction and Inverse Dynamics [13.382453086651019]
Vision-Language Navigationは、高価なエンボディメント固有のロボットデータに基づいて訓練されたエンドツーエンドのポリシーに依存している。
ロボットの動作から視覚計画を切り離す新しいモジュラーパラダイムであるImagiNavを提案する。
ImagiNavは、ロボットのデモを必要とせずに、ロボットナビゲーションへの強力なゼロショット転送をデモする。
論文 参考訳(メタデータ) (2026-03-14T08:34:02Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction [19.997935470257794]
本稿では,コモンセンス認識ナビゲーションのための視覚的および言語的指示を組み合わせたフレームワークであるCANVASを提案する。
その成功は模倣学習によって引き起こされ、ロボットは人間のナビゲーション行動から学ぶことができる。
実験の結果,CANVASはすべての環境において,強力なルールベースシステムであるROS NavStackよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-02T06:34:45Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Coupling Vision and Proprioception for Navigation of Legged Robots [65.59559699815512]
我々は視覚と受容の相補的な強みを利用して、脚のあるロボットでポイントゴールナビゲーションを実現する。
車輪付きロボット(LoCoBot)のベースラインよりも優れた性能を示す。
また,センサーと計算能力を備えた四足歩行ロボットに,我々のシステムを実環境に展開することも示す。
論文 参考訳(メタデータ) (2021-12-03T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。