論文の概要: MM-Nav: Multi-View VLA Model for Robust Visual Navigation via Multi-Expert Learning
- arxiv url: http://arxiv.org/abs/2510.03142v1
- Date: Fri, 03 Oct 2025 16:15:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.476252
- Title: MM-Nav: Multi-View VLA Model for Robust Visual Navigation via Multi-Expert Learning
- Title(参考訳): MM-Nav:マルチエキスパート学習によるロバスト視覚ナビゲーションのためのマルチビューVLAモデル
- Authors: Tianyu Xu, Jiawei Chen, Jiazhao Zhang, Wenyao Zhang, Zekun Qi, Minghan Li, Zhizheng Zhang, He Wang,
- Abstract要約: 本稿では,視覚・言語・行動モデルの知性を活用して,合成専門家データから多様なナビゲーション能力を学習することを提案する。
大規模ナビゲーションデータには,3つの強化学習(RL)の専門家から,特権深度情報を訓練した専門家データを収集する。
トレーニング比率が動的に均衡しているRL専門家からオンラインで収集したデータを使って、VLAモデルを反復的にトレーニングします。
- 参考スコア(独自算出の注目度): 19.308491194903556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual navigation policy is widely regarded as a promising direction, as it mimics humans by using egocentric visual observations for navigation. However, optical information of visual observations is difficult to be explicitly modeled like LiDAR point clouds or depth maps, which subsequently requires intelligent models and large-scale data. To this end, we propose to leverage the intelligence of the Vision-Language-Action (VLA) model to learn diverse navigation capabilities from synthetic expert data in a teacher-student manner. Specifically, we implement the VLA model, MM-Nav, as a multi-view VLA (with 360 observations) based on pretrained large language models and visual foundation models. For large-scale navigation data, we collect expert data from three reinforcement learning (RL) experts trained with privileged depth information in three challenging tailor-made environments for different navigation capabilities: reaching, squeezing, and avoiding. We iteratively train our VLA model using data collected online from RL experts, where the training ratio is dynamically balanced based on performance on individual capabilities. Through extensive experiments in synthetic environments, we demonstrate that our model achieves strong generalization capability. Moreover, we find that our student VLA model outperforms the RL teachers, demonstrating the synergistic effect of integrating multiple capabilities. Extensive real-world experiments further confirm the effectiveness of our method.
- Abstract(参考訳): 視覚的ナビゲーションポリシーは、エゴセントリックな視覚的観察をナビゲーションに用いて人間を模倣するので、有望な方向として広く見なされている。
しかし、視覚観測の光学的情報は、LiDAR点雲や深度マップのように明確にモデル化することは困難であり、これは知的モデルと大規模データを必要とする。
そこで本研究では,教師の学習方法で,視覚・言語・アクション(VLA)モデルのインテリジェンスを活用して,合成専門家データから多様なナビゲーション能力を学ぶことを提案する。
具体的には,VLAモデルであるMM-Navを,事前学習された大規模言語モデルと視覚基盤モデルに基づく多視点VLA(360度観測)として実装する。
大規模なナビゲーションデータには,3つの強化学習(RL)の専門家から専門家データを収集する。
RLの専門家がオンラインで収集したデータを用いて、VLAモデルを反復的にトレーニングします。
合成環境における広範な実験を通して、我々のモデルは強力な一般化能力を達成することを実証する。
さらに、学生のVLAモデルはRL教師よりも優れており、複数の能力を統合することの相乗効果が示される。
大規模な実世界の実験により,本手法の有効性がさらに確認された。
関連論文リスト
- From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [88.85002707211777]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークはVFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出する。
このアライメントは、クロスモーダルな表現学習を促進し、2Dデータと3Dデータのセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。
スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。
我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-12-04T16:32:51Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。