論文の概要: VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation
- arxiv url: http://arxiv.org/abs/2510.20818v1
- Date: Thu, 23 Oct 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.547893
- Title: VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation
- Title(参考訳): VAMOS: 機能制御とステアブルナビゲーションのための階層型ビジョンランゲージ・アクションモデル
- Authors: Mateo Guaman Castro, Sidharth Rajagopal, Daniel Gorbatov, Matt Schmittle, Rohan Baijal, Octi Zhang, Rosario Scalise, Sidharth Talia, Emma Romig, Celso de Melo, Byron Boots, Abhishek Gupta,
- Abstract要約: VAMOSは階層的なVLAで、セマンティックプランニングを実施基盤から切り離す。
室内および複雑な屋外ナビゲーションにおいて,VAMOSは高い成功率を達成することを示す。
このモデルはシングルロボットの信頼性を著しく向上させ、物理的に不可能な計画を拒否して3倍の成功率を達成する。
- 参考スコア(独自算出の注目度): 16.279434375658457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental challenge in robot navigation lies in learning policies that generalize across diverse environments while conforming to the unique physical constraints and capabilities of a specific embodiment (e.g., quadrupeds can walk up stairs, but rovers cannot). We propose VAMOS, a hierarchical VLA that decouples semantic planning from embodiment grounding: a generalist planner learns from diverse, open-world data, while a specialist affordance model learns the robot's physical constraints and capabilities in safe, low-cost simulation. We enabled this separation by carefully designing an interface that lets a high-level planner propose candidate paths directly in image space that the affordance model then evaluates and re-ranks. Our real-world experiments show that VAMOS achieves higher success rates in both indoor and complex outdoor navigation than state-of-the-art model-based and end-to-end learning methods. We also show that our hierarchical design enables cross-embodied navigation across legged and wheeled robots and is easily steerable using natural language. Real-world ablations confirm that the specialist model is key to embodiment grounding, enabling a single high-level planner to be deployed across physically distinct wheeled and legged robots. Finally, this model significantly enhances single-robot reliability, achieving 3X higher success rates by rejecting physically infeasible plans. Website: https://vamos-vla.github.io/
- Abstract(参考訳): ロボットナビゲーションの基本的な課題は、特定の実施形態のユニークな物理的制約と能力(例えば四足歩行は階段を上るが、ローバーは上ることはできない)に適合しながら、多様な環境をまたいで一般化する学習ポリシーにある。
汎用プランナーは多様なオープンワールドデータから学習し、専門的な余裕モデルは安全で低コストなシミュレーションでロボットの物理的制約と能力を学ぶ。
我々は、高レベルプランナーが画像空間内で直接候補経路を提案できるインターフェースを慎重に設計することで、この分離を可能にした。
我々の実世界の実験は、VAMOSが最先端のモデルベースおよびエンドツーエンドの学習方法よりも、屋内および複雑な屋外ナビゲーションにおいて高い成功率を達成することを示している。
また、我々の階層型設計は、脚と車輪のついたロボットを横断的に移動し、自然言語で容易に操作できることも示している。
現実のアブリケーションは、専門的なモデルが基礎を具現化するための鍵であることを確認し、単一の高レベルプランナーを物理的に異なる車輪と脚を持つロボットに展開できるようにする。
最後に、このモデルはシングルロボットの信頼性を著しく向上させ、物理的に実現不可能な計画を拒否して3倍の成功率を達成する。
ウェブサイト:https://vamos-vla.github.io/
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Learning a Terrain- and Robot-Aware Dynamics Model for Autonomous Mobile Robot Navigation [8.261491880782769]
本稿では,確率的,地形的,ロボット対応のフォワードダイナミクスモデル(TRADYN)を学習するための新しいアプローチを提案する。
本研究では, 空間的に異なる摩擦係数を持つ地形特性を持つ一サイクル動的ロボットの2次元ナビゲーションシミュレーションにおいて, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-09-17T16:46:39Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - Learning Forward Dynamics Model and Informed Trajectory Sampler for Safe
Quadruped Navigation [1.2783783498844021]
典型的なSOTAシステムは、マッパー、グローバルプランナー、ローカルプランナー、コマンドトラッキングコントローラの4つの主要モジュールで構成されている。
我々は,グローバルプランナから粗い計画経路を追跡するためのベロシティプランを生成するために,ロバストで安全なローカルプランナを構築している。
この枠組みを用いることで、四足歩行ロボットは衝突なしに様々な複雑な環境を自律的に移動でき、ベースライン法と比較してスムーズなコマンドプランを生成することができる。
論文 参考訳(メタデータ) (2022-04-19T04:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。