論文の概要: AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2509.21006v1
- Date: Thu, 25 Sep 2025 11:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.855281
- Title: AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation
- Title(参考訳): AnywhereVLA: 言語による探索とモバイル操作
- Authors: Konstantin Gubernatorov, Artem Voronov, Roman Voronov, Sergei Pasynkov, Stepan Perminov, Ziang Guo, Dzmitry Tsetserukou,
- Abstract要約: AnywhereVLAは、モバイル操作のためのモジュラーフレームワークである。
テキストプロンプトはエントリポイントとして機能し、構造化されたタスクグラフに解析される。
相互作用のためには、コンパクトなSmolVLA操作ヘッドをプラットフォームピックとプレーストラジェクトリに微調整する。
- 参考スコア(独自算出の注目度): 1.8266092127796327
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We address natural language pick-and-place in unseen, unpredictable indoor environments with AnywhereVLA, a modular framework for mobile manipulation. A user text prompt serves as an entry point and is parsed into a structured task graph that conditions classical SLAM with LiDAR and cameras, metric semantic mapping, and a task-aware frontier exploration policy. An approach planner then selects visibility and reachability aware pre grasp base poses. For interaction, a compact SmolVLA manipulation head is fine tuned on platform pick and place trajectories for the SO-101 by TheRobotStudio, grounding local visual context and sub-goals into grasp and place proposals. The full system runs fully onboard on consumer-level hardware, with Jetson Orin NX for perception and VLA and an Intel NUC for SLAM, exploration, and control, sustaining real-time operation. We evaluated AnywhereVLA in a multi-room lab under static scenes and normal human motion. In this setting, the system achieves a $46\%$ overall task success rate while maintaining throughput on embedded compute. By combining a classical stack with a fine-tuned VLA manipulation, the system inherits the reliability of geometry-based navigation with the agility and task generalization of language-conditioned manipulation.
- Abstract(参考訳): 我々は、モバイル操作のためのモジュラーフレームワークであるAnywhereVLAを使って、目に見えない、予測不可能な屋内環境における自然言語のピック・アンド・プレイスに対処する。
ユーザテキストプロンプトはエントリポイントとして機能し、LiDARとカメラで古典的なSLAMを条件付けした構造化タスクグラフ、メトリックセマンティックマッピング、タスク対応フロンティア探索ポリシーに解析される。
アプローチプランナーは、事前に把握されたベースポーズを認識する可視性と到達性を選択する。
インタラクションのために、コンパクトなSmolVLA操作ヘッドは、TheRobotStudioによってSO-101のプラットフォームピックと配置の軌跡を微調整し、局所的な視覚的コンテキストとサブゴールを把握し、提案を配置する。
完全なシステムはコンシューマレベルのハードウェア上で完全に動作し、Jetson Orin NXは知覚、VLAは認識、Intel NUCはSLAM、探索、制御、リアルタイム操作を継続する。
静的なシーンと正常な人間の動作下でのマルチルーム実験室でのAnywhereVLAの評価を行った。
この設定では、組み込み計算のスループットを維持しながら、全体のタスク成功率を46セントで達成する。
古典的スタックと微調整されたVLA操作を組み合わせることで、幾何学に基づくナビゲーションの信頼性と、言語条件による操作の俊敏性とタスクの一般化を継承する。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - To Move or Not to Move: Constraint-based Planning Enables Zero-Shot Generalization for Interactive Navigation [14.745622942938532]
家庭環境や倉庫のような現実のシナリオでは、クラッタはすべてのルートをブロックすることができる。
本稿では,移動ロボットが乱雑に移動して自身の進路を鍛える,Lifelong Interactive Navigation問題を紹介する。
アクティブな認識を伴うLLM駆動制約に基づく計画フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-23T17:10:00Z) - DroneVLA: VLA based Aerial Manipulation [2.1645011609137295]
本研究は,高レベルの自然言語コマンドを解釈してオブジェクトを検索し,人間の手に届ける,自律航空操作システムという新しい概念を導入する。
このシステムは、Grounding DINOとVision-Language-Actionモデルに基づくMediaPipeと、1-DOFグリップとIntel RealSense RGB-Dカメラを備えたカスタムドローンを統合することを意図している。
実世界におけるローカライゼーションとナビゲーションの実証実験により,最大0.164m,0.070m,0.084m,平均ユークリッド,ルート平均2乗のシステムの有効性を実証した。
論文 参考訳(メタデータ) (2026-01-20T10:08:00Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - SLAM-Free Visual Navigation with Hierarchical Vision-Language Perception and Coarse-to-Fine Semantic Topological Planning [20.12642476619467]
脚付きロボットナビゲーションのための視覚のみのSLAMフリーナビゲーションフレームワークを提案する。
階層的な視覚言語知覚モジュールは、シーンレベルのコンテキストとオブジェクトレベルの手がかりを融合して、堅牢なセマンティック推論を行う。
強化学習コントローラと統合されたこのフレームワークは、さまざまな脚を持つロボットプラットフォームにデプロイ可能である。
論文 参考訳(メタデータ) (2025-09-25T04:38:45Z) - OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation [49.66156306240961]
視覚に基づくナビゲーションのためのオムニモーダル目標条件付けを可能にするロボット基礎モデルのトレーニングフレームワークを提案する。
提案手法は,高容量な視覚-言語-アクションバックボーンと,3つの主要目標モードを持つトレーニングを利用する。
我々は、OmniVLAが、モダリティにまたがるスペシャリストのベースラインを上回り、新しいモダリティやタスクに微調整するための柔軟な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-09-23T18:40:29Z) - TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals [10.69725316052444]
ゼロショット・ロングホライゾン・ロボットナビゲーションを可能にする新しいRGBのみのオブジェクトレベルのトポロジカルナビゲーションパイプラインを提案する。
提案手法は,グローバルなトポロジカルパス計画と局所的軌跡制御を統合し,障害物を避けつつ,ロボットがオブジェクトレベルのサブゴールに向かって移動できるようにする。
シミュレーション環境と実世界の両方のテストにおいて,本手法の有効性を実証し,その堅牢性とデプロイ性を強調した。
論文 参考訳(メタデータ) (2025-09-10T15:43:32Z) - Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation [65.30763239365928]
我々は,ロボット操作のための統一世界基盤プラットフォームであるGenie Envisioner(GE)を紹介する。
GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワークに統合する。
論文 参考訳(メタデータ) (2025-08-07T17:59:44Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文 参考訳(メタデータ) (2024-06-26T19:42:08Z) - Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-time
Visual Scene Understanding [0.0]
LEXISはリアルタイム屋内局地化マッピングシステムである。
大規模言語モデルのオープン語彙の性質を活用して、シーン理解と位置認識のための統一的なアプローチを作成する。
レイアウトや寸法の異なる部屋をうまく分類し、最先端のSOTA(State-of-the-art)より優れている。
論文 参考訳(メタデータ) (2023-09-26T16:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。