Fugu-MT 論文翻訳(概要): Statistical Guarantees for Lifelong Reinforcement Learning using PAC-Bayesian Theory

論文の概要: Statistical Guarantees for Lifelong Reinforcement Learning using PAC-Bayesian Theory

arxiv url: http://arxiv.org/abs/2411.00401v1
Date: Fri, 01 Nov 2024 07:01:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.21405
Title: Statistical Guarantees for Lifelong Reinforcement Learning using PAC-Bayesian Theory
Title（参考訳）: PAC-ベイズ理論を用いた生涯強化学習のための統計的保証
Authors: Zhi Zhang, Chris Chow, Yasi Zhang, Yanchao Sun, Haochen Zhang, Eric Hanchen Jiang, Han Liu, Furong Huang, Yuchen Cui, Oscar Hernan Madrid Padilla,
Abstract要約: EPICは生涯強化学習のための新しいアルゴリズムである。テキストワールドポリシーと呼ばれる共有ポリシの配布を学習し、新しいタスクへの迅速な適応を可能にする。様々な環境における実験により、EPICは寿命の長いRLにおいて既存の手法を著しく上回っていることが示された。
参考スコア（独自算出の注目度）: 37.02104729448692
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Lifelong reinforcement learning (RL) has been developed as a paradigm for extending single-task RL to more realistic, dynamic settings. In lifelong RL, the "life" of an RL agent is modeled as a stream of tasks drawn from a task distribution. We propose EPIC (\underline{E}mpirical \underline{P}AC-Bayes that \underline{I}mproves \underline{C}ontinuously), a novel algorithm designed for lifelong RL using PAC-Bayes theory. EPIC learns a shared policy distribution, referred to as the \textit{world policy}, which enables rapid adaptation to new tasks while retaining valuable knowledge from previous experiences. Our theoretical analysis establishes a relationship between the algorithm's generalization performance and the number of prior tasks preserved in memory. We also derive the sample complexity of EPIC in terms of RL regret. Extensive experiments on a variety of environments demonstrate that EPIC significantly outperforms existing methods in lifelong RL, offering both theoretical guarantees and practical efficacy through the use of the world policy.
Abstract（参考訳）: 生涯強化学習(RL)は、より現実的でダイナミックな設定にシングルタスクRLを拡張するためのパラダイムとして開発された。生涯RLでは、RLエージェントの「ライフ」は、タスク分布から引き出されたタスクのストリームとしてモデル化される。 EPIC(\underline{E}mpirical \underline{P}AC-Bayes that \underline{I}mproves \underline{C}ontinuously)を提案する。 EPICは、従来の経験から貴重な知識を維持しつつ、新しいタスクへの迅速な適応を可能にする、共有ポリシの配布(‘textit{world policy’)を学習する。理論的解析により,アルゴリズムの一般化性能とメモリに保存された先行タスク数との関係が確立される。 RL後悔という観点からEPICのサンプル複雑性を導出する。様々な環境における広範囲な実験により、EPICは寿命の長いRLにおいて既存の手法を著しく上回り、世界政策の活用を通じて理論的保証と実践的有効性の両方を提供することを示した。

関連論文リスト

Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2026-01-06T09:28:53Z)
Causal-Paced Deep Reinforcement Learning [4.728991543521559]
Causal-Paced Deep Reinforcement Learning (CP-DRL)は、相互作用データ近似に基づくタスク間のSCM差を認識するカリキュラム学習フレームワークである。実証的に、CP-DRLはPoint Massベンチマークの既存のカリキュラム手法よりも優れている。
論文参考訳（メタデータ） (2025-06-24T20:15:01Z)
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective [31.956232187102465]
本稿では,オンラインRLHFにおける不完全な報酬モデルから知識を伝達する方法を検討する。本稿では,新しい伝達学習原理と理論的アルゴリズムを提案する。我々は、計算効率を向上したウィンレートベースの転送ポリシー選択戦略を開発する。
論文参考訳（メタデータ） (2025-02-26T16:03:06Z)
Behavioral Entropy-Guided Dataset Generation for Offline Reinforcement Learning [0.823630213763116]
本研究では,多様な状態空間を包含するデータセットを生成するために,行動エントロピーを基本的探索目的として用いることを提案する。本研究では,BE,R'enyi,Shannon Entropy-maximizing PolicyおよびSMMおよびRNDアルゴリズムを用いて生成されたデータセットに対して,様々なダウンストリームタスクに対するオフラインRLアルゴリズムの性能を実験的に比較した。 BEを使用してトレーニングされたデータセットに基づいてトレーニングされたオフラインRLアルゴリズムは、検討されたすべてのタスクにおいて、シャノンエントロピー、SMM、RNDを使用して収集されたデータセット、およびR'enyiエントロピーを用いて収集されたデータセットと比較して80%のタスクにおいて、トレーニングされたデータセットよりも優れています。
論文参考訳（メタデータ） (2025-02-06T15:20:32Z)
Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文参考訳（メタデータ） (2024-03-03T22:57:44Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Is Inverse Reinforcement Learning Harder than Standard Reinforcement Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文参考訳（メタデータ） (2023-11-29T00:09:01Z)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習は、時間的抽象と探索の増大を利用して複雑な長い水平方向のタスクを解く可能性がある。プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文参考訳（メタデータ） (2023-06-10T09:41:30Z)
Supplementing Gradient-Based Reinforcement Learning with Simple Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文参考訳（メタデータ） (2023-05-10T09:46:53Z)
Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior: From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。 PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文参考訳（メタデータ） (2022-11-14T08:51:04Z)
Flexible Attention-Based Multi-Policy Fusion for Efficient Deep Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。 RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文参考訳（メタデータ） (2022-10-07T17:56:57Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文参考訳（メタデータ） (2022-02-14T01:31:46Z)
Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文参考訳（メタデータ） (2021-03-04T18:44:03Z)
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文参考訳（メタデータ） (2020-10-02T17:13:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。