論文の概要: APPLV: Adaptive Planner Parameter Learning from Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2603.08862v1
- Date: Mon, 09 Mar 2026 19:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.796779
- Title: APPLV: Adaptive Planner Parameter Learning from Vision-Language-Action Model
- Title(参考訳): APPLV:ビジョンランゲージ・アクションモデルによる適応プランナーパラメータ学習
- Authors: Yuanjie Lu, Beichen Wang, Zhengqi Wu, Yang Li, Xiaomin Lin, Chengzhi Mao, Xuesu Xiao,
- Abstract要約: 本稿では,自律ナビゲーションのための適応型プランナー学習モデル(textscapplv)を提案する。
textscapplvは、ナビゲーション性能と一般化の両方において、既存のメソッドよりも優れています。
我々は,収集した航法軌道からの教師付き学習微調整と,航法性能をさらに最適化するための強化学習微調整の2つの訓練戦略を開発した。
- 参考スコア(独自算出の注目度): 21.492007331670376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous navigation in highly constrained environments remains challenging for mobile robots. Classical navigation approaches offer safety assurances but require environment-specific parameter tuning; end-to-end learning bypasses parameter tuning but struggles with precise control in constrained spaces. To this end, recent robot learning approaches automate parameter tuning while retaining classical systems' safety, yet still face challenges in generalizing to unseen environments. Recently, Vision-Language-Action (VLA) models have shown promise by leveraging foundation models' scene understanding capabilities, but still struggle with precise control and inference latency in navigation tasks. In this paper, we propose Adaptive Planner Parameter Learning from Vision-Language-Action Model (\textsc{applv}). Unlike traditional VLA models that directly output actions, \textsc{applv} leverages pre-trained vision-language models with a regression head to predict planner parameters that configure classical planners. We develop two training strategies: supervised learning fine-tuning from collected navigation trajectories and reinforcement learning fine-tuning to further optimize navigation performance. We evaluate \textsc{applv} across multiple motion planners on the simulated Benchmark Autonomous Robot Navigation (BARN) dataset and in physical robot experiments. Results demonstrate that \textsc{applv} outperforms existing methods in both navigation performance and generalization to unseen environments.
- Abstract(参考訳): 高度に制約された環境での自律ナビゲーションは、モバイルロボットにとって依然として困難である。
古典的なナビゲーション手法は、安全保証を提供するが、環境固有のパラメータチューニングを必要とする。
この目的のために、最近のロボット学習アプローチは、古典的なシステムの安全性を維持しながらパラメータチューニングを自動化するが、まだ目に見えない環境に一般化する際の課題に直面している。
近年、VLA(Vision-Language-Action)モデルでは、ファンデーションモデルのシーン理解機能を活用することで、将来性を示しているが、ナビゲーションタスクの正確な制御と推論遅延に苦慮している。
本稿では,視覚・言語・行動モデル(\textsc{applv})からの適応プランナーパラメータ学習を提案する。
アクションを直接出力する従来のVLAモデルとは異なり、 \textsc{applv} は回帰ヘッドを持つ事前学習された視覚言語モデルを利用して、古典的なプランナーを構成するプランナーパラメータを予測する。
我々は,収集した航法軌道からの教師付き学習微調整と,航法性能をさらに最適化するための強化学習微調整の2つの訓練戦略を開発した。
シミュレーションされた自動ロボットナビゲーション(BARN)データセットと物理ロボット実験において,複数の運動プランナ間での「textsc{applv}」の評価を行った。
その結果, <textsc{applv} はナビゲーション性能と一般化の両方において, 既存の手法よりも優れていた。
関連論文リスト
- OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals [10.69725316052444]
ゼロショット・ロングホライゾン・ロボットナビゲーションを可能にする新しいRGBのみのオブジェクトレベルのトポロジカルナビゲーションパイプラインを提案する。
提案手法は,グローバルなトポロジカルパス計画と局所的軌跡制御を統合し,障害物を避けつつ,ロボットがオブジェクトレベルのサブゴールに向かって移動できるようにする。
シミュレーション環境と実世界の両方のテストにおいて,本手法の有効性を実証し,その堅牢性とデプロイ性を強調した。
論文 参考訳(メタデータ) (2025-09-10T15:43:32Z) - Learning to Tune Like an Expert: Interpretable and Scene-Aware Navigation via MLLM Reasoning and CVAE-Based Adaptation [12.561993540768729]
サービスロボットのための解釈可能かつシーン対応ナビゲーションフレームワークLE-Navについて述べる。
ゼロショットシーン理解を実現するために,ワンショット例とチェーン・オブ・シークレット・プロンプト戦略を利用する。
実験の結果、LE-Navは多種多様なプランナーやシナリオにまたがる人間レベルのチューニングを実現するためのハイパーパラメータを生成できることがわかった。
論文 参考訳(メタデータ) (2025-07-15T05:37:24Z) - Inverse RL Scene Dynamics Learning for Nonlinear Predictive Control in Autonomous Vehicles [0.0]
本稿では,自律ナビゲーションのための深層学習に基づくScene Dynamics(DL-NMPC-SD)手法を提案する。
DL-NMPC-SDは、時間範囲センシング情報から学習したシーンダイナミクスモデルと組み合わせて、アプリオリ名車モデルを使用する。
論文 参考訳(メタデータ) (2025-04-02T03:46:37Z) - Adaptive Interactive Navigation of Quadruped Robots using Large Language Models [14.14967096139099]
大規模言語モデル(LLM)を用いたタスク計画のための原始木を提案する。
動作計画のための多目的移動と相互作用行動を含む総合的なスキルライブラリを事前学習するために強化学習を採用する。
ツリー構造に統合されたリプランニングメカニズムにより、便利なノードの追加とプルーニングが可能になる。
論文 参考訳(メタデータ) (2025-03-29T02:17:52Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。