論文の概要: Beyond Specialization: Robust Reinforcement Learning Navigation via Procedural Map Generators
- arxiv url: http://arxiv.org/abs/2605.02528v1
- Date: Mon, 04 May 2026 12:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.282789
- Title: Beyond Specialization: Robust Reinforcement Learning Navigation via Procedural Map Generators
- Title(参考訳): 特殊化を超えて:プロシージャマップジェネレータによるロバスト強化学習ナビゲーション
- Authors: Christian Jestel, Nicolas Bach, Marvin Wiedemann, Jan Finke, Peter Detzner,
- Abstract要約: ナビゲーション性を保証する4つのジェネレータを,LiDARナビゲーションのトレーニング効率を重視した2次元シミュレータであるMuRoSimに統合する。
5つのナビゲーションポリシーを3つのトレーニングシードで1ジェネレータあたり1000個のシードマップで横断的に評価する。
厳密なレイアウトで訓練された専門家は迷路で3.3%成功し、ジェネレータの組み合わせで訓練されたポリシーは91.5+/- 1.1%成功を意味している。
- 参考スコア(独自算出の注目度): 1.8454901862917816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) navigation policies often overfit to the structure of their training environments, as environmental diversity is typically constrained by the manual effort required to design diverse scenarios. While procedural map generation offers scalable diversity, no prior work systematically compares how different generator types affect policy generalization. We integrate four generators (sparse, maze, graph, and Wave Function Collapse) with guaranteed navigability into MuRoSim, a 2D simulator focusing on training efficiency for LiDAR-based navigation. We cross-evaluate five navigation policies on 1000 seeded maps per generator across three training seeds. Results show a strongly asymmetric cross-generator transfer: a specialist trained on sparse layouts falls to 3.3% success on mazes, whereas a policy trained on the combined generator set achieves 91.5 +/- 1.1% mean success. We further demonstrate that A* path-planner subgoal inputs are the dominant factor for robustness, raising success from the 90.2 +/- 1.4% feedforward baseline to 98.9 +/- 0.4% and outperforming GRU recurrence, which only improves the reactive baseline. The DRL policies outperform a classical Carrot+A* controller, which matches their success only at low speeds (1.0 m/s) but collapses to 24.9% at 2.0 m/s. This highlights learned speed adaptation as the decisive advantage of the learned approach. Real-world experiments on a RoboMaster confirm sim-to-real transfer in a cluttered arena, while a maze-like layout exposes remaining failure modes that recurrence helps mitigate.
- Abstract(参考訳): 深層強化学習(DRL)ナビゲーションポリシーは、様々なシナリオを設計するために必要な手作業によって、環境の多様性が制限されるため、トレーニング環境の構造に過度に適合することが多い。
プロシージャマップ生成はスケーラブルな多様性を提供するが、以前の作業では、異なるジェネレータタイプがポリシーの一般化にどのように影響するかを体系的に比較することはなかった。
我々は,LiDARに基づくナビゲーションのトレーニング効率を重視した2DシミュレータであるMuRoSimに,ナビゲーション性を保証する4つのジェネレータ(スパース,迷路,グラフ,ウェーブファンクション・コラプス)を統合する。
5つのナビゲーションポリシーを3つのトレーニングシードで1ジェネレータあたり1000個のシードマップで横断的に評価する。
厳密なレイアウトで訓練された専門家は迷路で3.3%成功し、ジェネレータの組み合わせで訓練されたポリシーは91.5+/- 1.1%成功を意味している。
さらに、A*パスプランナーのサブゴール入力がロバスト性の主要な要因であることを示し、90.2+/- 1.4%のフィードフォワードベースラインから98.9+/- 0.4%のフィードフォワードベースラインに成功し、GRUリカレンスを上回り、反応性ベースラインのみを改善する。
DRLのポリシーは古典的なCarrot+A*コントローラよりも優れており、その成功は1.0 m/sでしか一致しないが、2.0 m/sで24.9%に低下する。
このことは、学習したアプローチの決定的な利点として、学習した速度適応を強調している。
RoboMaster上の実世界の実験は、散らかったアリーナでのsim-to-real転送を確認し、迷路のようなレイアウトは、再発が緩和する残りの障害モードを公開する。
関連論文リスト
- Critic-Free Deep Reinforcement Learning for Maritime Coverage Path Planning on Irregular Hexagonal Grids [1.2891210250935148]
海上監視任務は、広大で幾何学的に複雑な領域におけるセンシング資産の効率的な配分に依存している。
伝統的なカバー・パス・プランニングアプローチは不規則な海岸線、島々、および排他的地域と戦っている。
本研究では,不規則海域の六角形格子表現においてCPPを解くための深層強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-30T12:56:38Z) - TransCurriculum: Multi-Dimensional Curriculum Learning for Fast & Stable Locomotion [50.54752207285298]
TransCurriculumは、アジャイル四足歩行のためのトランスフォーマーベースの多次元カリキュラム学習アプローチである。
シミュレーションでは,Unitree Go1ロボットに対するアプローチを検証し,Go1ハードウェア上でゼロショットでデプロイする。
論文 参考訳(メタデータ) (2026-03-14T23:44:42Z) - LongNav-R1: Horizon-Adaptive Multi-Turn RL for Long-Horizon VLA Navigation [20.927209769158395]
LongNav-R1はエンドツーエンドのマルチターン強化学習フレームワークである。
LongNav-R1は、ナビゲーション決定過程をVLAポリシーと実施環境との連続したマルチターン会話として再構成する。
論文 参考訳(メタデータ) (2026-02-12T19:22:52Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - When Engineering Outruns Intelligence: Rethinking Instruction-Guided Navigation [10.827213515727996]
最近のObjectNavシステムは、大きなゼロショットゲインに対して大きな言語モデル(LLM)を信用している。
我々は,インストラクション誘導パイプラインであるInstructNavを再評価することにより,この問題を再考する。
論文 参考訳(メタデータ) (2025-07-26T17:37:15Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach [7.488722678999039]
本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
論文 参考訳(メタデータ) (2020-02-10T22:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。