論文の概要: Beyond Imitation: Reinforcement Learning Fine-Tuning for Adaptive Diffusion Navigation Policies
- arxiv url: http://arxiv.org/abs/2603.12868v1
- Date: Fri, 13 Mar 2026 10:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.758276
- Title: Beyond Imitation: Reinforcement Learning Fine-Tuning for Adaptive Diffusion Navigation Policies
- Title(参考訳): 模倣を超えて:適応拡散ナビゲーション政策のための強化学習ファインタニング
- Authors: Junhe Sheng, Ruofei Bai, Kuan Xu, Ruimeng Liu, Jie Chen, Shenghai Yuan, Wei-Yun Yau, Lihua Xie,
- Abstract要約: 拡散に基づくロボットナビゲーションポリシーは、ロボットの視覚的観察から直接マルチモーダルな軌道を生成することができる。
拡散型ナビゲーションに適した強化学習フレームワークを提案する。
提案手法は, 衝突頻度を低減しつつ, 52.0%から58.7%, SPLを0.49から0.54に改善する。
- 参考スコア(独自算出の注目度): 31.52910494173408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based robot navigation policies trained on large-scale imitation learning datasets, can generate multi-modal trajectories directly from the robot's visual observations, bypassing the traditional localization-mapping-planning pipeline and achieving strong zero-shot generalization. However, their performance remains constrained by the coverage of offline datasets, and when deployed in unseen settings, distribution shift often leads to accumulated trajectory errors and safety-critical failures. Adapting diffusion policies with reinforcement learning is challenging because their iterative denoising structure hinders effective gradient backpropagation, while also making the training of an additional value network computationally expensive and less stable. To address these issues, we propose a reinforcement learning fine-tuning framework tailored for diffusion-based navigation. The method leverages the inherent multi-trajectory sampling mechanism of diffusion models and adopts Group Relative Policy Optimization (GRPO), which estimates relative advantages across sampled trajectories without requiring a separate value network. To preserve pretrained representations while enabling adaptation, we freeze the visual encoder and selectively update the higher decoder layers and action head, enhancing safety-aware behaviors through online environmental feedback. On the PointGoal task in Isaac Sim, our approach improves the Success Rate from 52.0% to 58.7% and SPL from 0.49 to 0.54 on unseen scenes, while reducing collision frequency. Additional experiments show that the fine-tuned policy transfers zero-shot to a real quadruped platform and maintains stable performance in geometrically out-of-distribution environments, suggesting improved adaptability and safe generalization to new domains.
- Abstract(参考訳): 大規模な模倣学習データセットに基づいてトレーニングされた拡散ベースのロボットナビゲーションポリシーは、従来のローカライゼーション・マッピング計画パイプラインをバイパスし、強力なゼロショット一般化を達成することで、ロボットの視覚観察から直接マルチモーダル軌道を生成することができる。
しかしながら、オフラインデータセットのカバレッジによってパフォーマンスは制限され続けており、目に見えない設定でデプロイされると、分散シフトが蓄積されたトラジェクトリエラーと安全クリティカルな障害につながることが多い。
強化学習による拡散政策の適応は、その反復的認知構造が効果的な勾配逆伝播を妨げる一方で、付加価値ネットワークのトレーニングを計算的に高価にし、より安定したものにするため、困難である。
これらの課題に対処するために,拡散型ナビゲーションに適した強化学習ファインチューニングフレームワークを提案する。
この手法は拡散モデルの固有多軌道サンプリング機構を利用し、グループ相対ポリシー最適化(GRPO)を採用し、異なる値ネットワークを必要としないサンプル軌道間の相対的な利点を推定する。
適応性を確保しつつ事前学習した表現を維持するため、視覚的エンコーダを凍結し、高いデコーダ層とアクションヘッドを選択的に更新し、オンライン環境フィードバックを通じて安全性に配慮した行動を強化する。
アイザック・シムのPointGoalタスクでは、衝突頻度を減少させながら、成功率を52.0%から58.7%に、SPLを0.49から0.54に改善する。
さらなる実験により、微調整されたポリシーはゼロショットを実四重化プラットフォームに転送し、幾何学的に分布外の環境で安定な性能を維持し、新しい領域への適応性と安全な一般化を示唆している。
関連論文リスト
- Learn for Variation: Variationally Guided AAV Trajectory Learning in Differentiable Environments [21.594684328904403]
Learn for Variation (L4V)は勾配インフォームドな軌道学習フレームワークである。
高分散スカラー報酬信号を高密度で解析的に基底化されたポリシー勾配に置き換える。
L4Vは、ミッション完了時間、平均送信速度、訓練コストにおいて、代表ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-03-19T12:57:42Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Continual Learning, Not Training: Online Adaptation For Agents [0.0]
私たちは、推論(教師)を実行から切り離すデュアルエージェントアーキテクチャATLAS(Adaptive Teaching and Learning System)を紹介します。
ATLASは勾配のない連続学習を実現し、モデルパラメータからシステムレベルのオーケストレーションへの適応の軌跡をシフトさせる。
論文 参考訳(メタデータ) (2025-11-02T21:48:31Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - In-the-Flow Agentic System Optimization for Effective Planning and Tool Use [73.72524040856052]
AgentFlowはトレーニング可能なインザフローエージェントフレームワークで、進化するメモリを通じて4つのモジュール(プランナ、実行子、検証子、ジェネレータ)をコーディネートする。
Flow-GRPOは、マルチターン最適化をトラクタブルな単一ターンポリシー更新のシーケンスに変換することで、長い水平、スパース・リワードのクレジット割り当てに取り組む。
エージェントフローは7Bスケールのバックボーンで、平均的精度が14.9%、エージェントが14.0%、数学が14.5%、科学的タスクが4.1%でトップパフォーマンスのベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-07T05:32:44Z) - Stochastic Path Planning in Correlated Obstacle Fields [1.8184089804625951]
本研究では,不確実な状態の空間的相関障害を有するナビゲーション環境であるSCOS(Correlated Obstacle Scene)問題を紹介する。
我々は,ブロック確率を洗練させるベイズ的信念更新を開発し,その後部を用いて探索空間を効率よく削減する。
このフレームワークは、敵の割り込みやクラスタ化された自然災害のある環境でのナビゲーション上の課題に対処する。
論文 参考訳(メタデータ) (2025-09-23T20:30:35Z) - Local Pairwise Distance Matching for Backpropagation-Free Reinforcement Learning [0.9065034043031668]
強化学習(RL)を用いたニューラルネットワークのトレーニングは一般的にバックプロパゲーション(BP)に依存している
BPは後続の更新のためにフォワードパスからのアクティベーションを格納する必要がある。
本稿では、RL設定において、前部パス中の局所信号を用いてニューラルネットワークの各層をトレーニングする新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-15T14:39:41Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。