論文の概要: PAC-Bayesian Reinforcement Learning Trains Generalizable Policies
- arxiv url: http://arxiv.org/abs/2510.10544v1
- Date: Sun, 12 Oct 2025 11:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.000894
- Title: PAC-Bayesian Reinforcement Learning Trains Generalizable Policies
- Title(参考訳): PAC-ベイズ強化学習における一般政策
- Authors: Abdelkrim Zitouni, Mehdi Hennequin, Juba Agoun, Ryan Horache, Nadia Kabachi, Omar Rivasplata,
- Abstract要約: 我々は、連鎖の混合時間を通じて、データ内のマルコフ依存を明示的に説明する強化学習のための新しいPAC-ベイズ一般化を導出する。
これは、データのシーケンシャルな性質が古典的境界の根底にある独立性の仮定を破る強化学習の一般化保証を得る際の課題の克服に寄与する。
- 参考スコア(独自算出の注目度): 1.3340996111165058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We derive a novel PAC-Bayesian generalization bound for reinforcement learning that explicitly accounts for Markov dependencies in the data, through the chain's mixing time. This contributes to overcoming challenges in obtaining generalization guarantees for reinforcement learning, where the sequential nature of data breaks the independence assumptions underlying classical bounds. Our bound provides non-vacuous certificates for modern off-policy algorithms like Soft Actor-Critic. We demonstrate the bound's practical utility through PB-SAC, a novel algorithm that optimizes the bound during training to guide exploration. Experiments across continuous control tasks show that our approach provides meaningful confidence certificates while maintaining competitive performance.
- Abstract(参考訳): 我々は、連鎖の混合時間を通じて、データ内のマルコフ依存を明示的に説明する強化学習のための新しいPAC-ベイズ一般化を導出する。
これは、データのシーケンシャルな性質が古典的境界の根底にある独立性の仮定を破る強化学習の一般化保証を得る際の課題の克服に寄与する。
私たちのバウンダリは、Soft Actor-Criticのようなモダンなオフポリティなアルゴリズムに対して、空白の証明書を提供しています。
PB-SAC(PB-SAC, PB-SAC)は, 学習中の境界を最適化し, 探索をガイドする手法である。
継続的制御タスクに対する実験は、我々のアプローチが競争性能を維持しながら有意義な信頼性証明を提供することを示している。
関連論文リスト
- Frictional Q-Learning [4.1384906228154215]
連続制御のための深層強化学習アルゴリズムであるFrictional Q-learningを提案する。
我々のアルゴリズムはエージェントの行動空間を制約し、正規直交作用空間の多様体からの距離を維持しながら、リプレイバッファと同様の振る舞いを奨励する。
論文 参考訳(メタデータ) (2025-09-24T05:42:38Z) - Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。
次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文 参考訳(メタデータ) (2025-01-13T16:13:22Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - PAC-Bayesian Offline Contextual Bandits With Guarantees [9.324642081509756]
本稿では,文脈的バンディットにおける非政治的学習に対する新たな原則的アプローチを提案する。
本稿では,新しい一般化境界を提案し,それらを最適化するトラクタブルアルゴリズムを提案する。
得られたバウンダリが競合他社よりも厳格であることを証明するとともに,ログポリシをオフラインで改善するために直接最適化することが可能である。
論文 参考訳(メタデータ) (2022-10-24T11:38:34Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - CROP: Certifying Robust Policies for Reinforcement Learning through
Functional Smoothing [41.093241772796475]
本稿では, 逆境状態の摂動に対する強化学習(CROP)のためのロバスト政策の認定のための最初の枠組みを提案する。
本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。
論文 参考訳(メタデータ) (2021-06-17T07:58:32Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。