論文の概要: Learning to Tune Like an Expert: Interpretable and Scene-Aware Navigation via MLLM Reasoning and CVAE-Based Adaptation
- arxiv url: http://arxiv.org/abs/2507.11001v1
- Date: Tue, 15 Jul 2025 05:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.993111
- Title: Learning to Tune Like an Expert: Interpretable and Scene-Aware Navigation via MLLM Reasoning and CVAE-Based Adaptation
- Title(参考訳): 専門家のように学習する:MLLM推論とCVAEに基づく適応による解釈とシーン認識ナビゲーション
- Authors: Yanbo Wang, Zipeng Fang, Lei Zhao, Weidong Chen,
- Abstract要約: サービスロボットのための解釈可能かつシーン対応ナビゲーションフレームワークLE-Navについて述べる。
ゼロショットシーン理解を実現するために,ワンショット例とチェーン・オブ・シークレット・プロンプト戦略を利用する。
実験の結果、LE-Navは多種多様なプランナーやシナリオにまたがる人間レベルのチューニングを実現するためのハイパーパラメータを生成できることがわかった。
- 参考スコア(独自算出の注目度): 12.561993540768729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Service robots are increasingly deployed in diverse and dynamic environments, where both physical layouts and social contexts change over time and across locations. In these unstructured settings, conventional navigation systems that rely on fixed parameters often fail to generalize across scenarios, resulting in degraded performance and reduced social acceptance. Although recent approaches have leveraged reinforcement learning to enhance traditional planners, these methods often fail in real-world deployments due to poor generalization and limited simulation diversity, which hampers effective sim-to-real transfer. To tackle these issues, we present LE-Nav, an interpretable and scene-aware navigation framework that leverages multi-modal large language model reasoning and conditional variational autoencoders to adaptively tune planner hyperparameters. To achieve zero-shot scene understanding, we utilize one-shot exemplars and chain-of-thought prompting strategies. Additionally, a conditional variational autoencoder captures the mapping between natural language instructions and navigation hyperparameters, enabling expert-level tuning. Experiments show that LE-Nav can generate hyperparameters achieving human-level tuning across diverse planners and scenarios. Real-world navigation trials and a user study on a smart wheelchair platform demonstrate that it outperforms state-of-the-art methods on quantitative metrics such as success rate, efficiency, safety, and comfort, while receiving higher subjective scores for perceived safety and social acceptance. Code is available at https://github.com/Cavendish518/LE-Nav.
- Abstract(参考訳): サービスロボットは、物理的レイアウトと社会的コンテキストの両方が時間と場所によって変化する多様な動的環境にますますデプロイされる。
これらの非構造化環境では、固定パラメータに依存する従来のナビゲーションシステムはシナリオをまたいだ一般化に失敗し、性能が低下し、社会的受容が低下する。
近年の手法では、強化学習を活用して従来のプランナーを強化しているが、これらの手法は、一般化の貧弱さとシミュレーションの多様性の制限により、実世界の展開に失敗することが多く、シミュレート・トゥ・リアル・トランスファーを効果的に妨げている。
これらの問題に対処するために,多モーダルな大言語モデル推論と条件付き変分オートエンコーダを活用して,平面ハイパーパラメータを適応的に調整する,解釈可能なシーン対応ナビゲーションフレームワークLE-Navを提案する。
ゼロショットシーン理解を実現するために,ワンショット例とチェーン・オブ・シークレット・プロンプト戦略を利用する。
さらに、条件付き変分オートエンコーダは、自然言語命令とナビゲーションハイパーパラメータ間のマッピングをキャプチャし、エキスパートレベルのチューニングを可能にする。
実験の結果、LE-Navは多種多様なプランナーやシナリオにまたがる人間レベルのチューニングを実現するためのハイパーパラメータを生成できることがわかった。
実世界のナビゲーション試行とスマート車椅子プラットフォームに関するユーザスタディは、成功率、効率性、安全性、快適性などの測定値に関する最先端の手法よりも優れており、安全性や社会的受容に対する高い主観的スコアを得られることを示した。
コードはhttps://github.com/Cavendish518/LE-Nav.comで入手できる。
関連論文リスト
- From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - OpenObject-NAV: Open-Vocabulary Object-Oriented Navigation Based on Dynamic Carrier-Relationship Scene Graph [10.475404599532157]
本稿では、頻繁に使用されるオブジェクトと静的キャリアの関係をキャプチャする。
本稿では,ナビゲーションプロセスをマルコフ決定プロセスとしてモデル化するインスタンスナビゲーション戦略を提案する。
その結果,CRSGを更新することで,移動目標への移動を効率的に行うことができることがわかった。
論文 参考訳(メタデータ) (2024-09-27T13:33:52Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - IN-Sight: Interactive Navigation through Sight [20.184155117341497]
IN-Sightは自己監督型パスプランニングの新しいアプローチである。
可逆性のスコアを計算し、セマンティックマップに組み込む。
障害物を正確に回避するために、IN-Sightはローカルプランナーを使用している。
論文 参考訳(メタデータ) (2024-08-01T07:27:54Z) - Hyp2Nav: Hyperbolic Planning and Curiosity for Crowd Navigation [58.574464340559466]
我々は,群集ナビゲーションを実現するための双曲学習を提唱し,Hyp2Navを紹介した。
Hyp2Navは双曲幾何学の本質的な性質を活用し、ナビゲーションタスクにおける意思決定プロセスの階層的性質をよりよく符号化する。
本稿では, 効果的なソーシャルナビゲーション, 最高の成功率, 複数シミュレーション設定におけるリターンをもたらす, 双曲型ポリシーモデルと双曲型好奇性モジュールを提案する。
論文 参考訳(メタデータ) (2024-07-18T14:40:33Z) - Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation [16.789333617628138]
ソーシャルロボットナビゲーションプランナーは、2つの大きな課題に直面している。
本稿では,対話型対話型ソーシャル・アウェア・ナビゲーションフレームワークであるSALMを紹介する。
メモリ機構は、時間データを連続的な改善のためにアーカイブし、多段階のグラフは推論に基づく大規模言語フィードバックモデルが両方の計画手法の強みを適応的に融合させる。
論文 参考訳(メタデータ) (2024-03-22T23:12:28Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。