論文の概要: Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations
- arxiv url: http://arxiv.org/abs/2509.15981v1
- Date: Fri, 19 Sep 2025 13:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.185822
- Title: Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations
- Title(参考訳): ほとんど説明のない強化学習のための不確実性に基づく平滑なポリシー規則化
- Authors: Yujie Zhu, Charles A. Hepburn, Matthew Thorpe, Giovanni Montana,
- Abstract要約: Smooth Policy Regularisation from Demonstrations (SPReD) は基本的な問題に対処するフレームワークである。
SPReDはアンサンブル法を用いて、実証行動と政策行動の両方のQ値分布を明示的にモデル化し、比較の不確実性を定量化する。
8つのロボティクスタスクにわたる実験では、複雑なタスクにおいて14倍まで既存のアプローチを上回りながら、品質と量を示すための堅牢性を維持している。
- 参考スコア(独自算出の注目度): 8.436020932157684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning with sparse rewards, demonstrations can accelerate learning, but determining when to imitate them remains challenging. We propose Smooth Policy Regularisation from Demonstrations (SPReD), a framework that addresses the fundamental question: when should an agent imitate a demonstration versus follow its own policy? SPReD uses ensemble methods to explicitly model Q-value distributions for both demonstration and policy actions, quantifying uncertainty for comparisons. We develop two complementary uncertainty-aware methods: a probabilistic approach estimating the likelihood of demonstration superiority, and an advantage-based approach scaling imitation by statistical significance. Unlike prevailing methods (e.g. Q-filter) that make binary imitation decisions, SPReD applies continuous, uncertainty-proportional regularisation weights, reducing gradient variance during training. Despite its computational simplicity, SPReD achieves remarkable gains in experiments across eight robotics tasks, outperforming existing approaches by up to a factor of 14 in complex tasks while maintaining robustness to demonstration quality and quantity. Our code is available at https://github.com/YujieZhu7/SPReD.
- Abstract(参考訳): まばらな報酬を伴う強化学習では、デモンストレーションは学習を加速させるが、いつそれを模倣するかを決めることは難しいままである。
Smooth Policy Regularisation from Demonstrations (SPReD)は、エージェントがいつデモを模倣するか、あるいは独自のポリシーに従うべきかという根本的な問題に対処するフレームワークである。
SPReDはアンサンブル法を用いて、実証行動と政策行動の両方のQ値分布を明示的にモデル化し、比較の不確実性を定量化する。
本研究では,実証上の優位性を推定する確率論的アプローチと,統計的意義によるスケーリング模倣の利点に基づく手法の2つの相補的不確実性認識手法を開発する。
2値の模倣決定を行う一般的な方法(例えばQ-フィルタ)とは異なり、SPReDは連続的かつ不確実な正規化重みを適用し、訓練中に勾配のばらつきを減少させる。
計算の単純さにもかかわらず、SPReDは8つのロボティクスタスクにわたる実験で顕著に向上し、複雑なタスクにおいて14倍の精度で既存のアプローチを上回りながら、品質と量を実証する堅牢性を維持している。
私たちのコードはhttps://github.com/YujieZhu7/SPReD.comで公開されています。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。