論文の概要: Federated Offline Policy Optimization with Dual Regularization
- arxiv url: http://arxiv.org/abs/2405.17474v1
- Date: Fri, 24 May 2024 04:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:10:18.956171
- Title: Federated Offline Policy Optimization with Dual Regularization
- Title(参考訳): デュアル正規化によるフェデレーションオフライン政策最適化
- Authors: Sheng Yue, Zerui Qin, Xingyuan Hua, Yongheng Deng, Ju Ren,
- Abstract要約: Federated Reinforcement Learning (FRL)は、モノのインターネット時代において、インテリジェントな意思決定のための有望なソリューションとみなされてきた。
既存のFRLアプローチは、しばしばローカル更新中に環境との繰り返しの相互作用を伴い、多くの現実世界のドメインでは違法に高価または不可能である。
本稿では、分散エージェントがプライベートデータと静的データのみから意思決定ポリシーを協調的に学習することを可能にする、新しいオフラインフェデレーション最適化アルゴリズムである$textttO$を提案する。
- 参考スコア(独自算出の注目度): 12.320355780707168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Reinforcement Learning (FRL) has been deemed as a promising solution for intelligent decision-making in the era of Artificial Internet of Things. However, existing FRL approaches often entail repeated interactions with the environment during local updating, which can be prohibitively expensive or even infeasible in many real-world domains. To overcome this challenge, this paper proposes a novel offline federated policy optimization algorithm, named $\texttt{DRPO}$, which enables distributed agents to collaboratively learn a decision policy only from private and static data without further environmental interactions. $\texttt{DRPO}$ leverages dual regularization, incorporating both the local behavioral policy and the global aggregated policy, to judiciously cope with the intrinsic two-tier distributional shifts in offline FRL. Theoretical analysis characterizes the impact of the dual regularization on performance, demonstrating that by achieving the right balance thereof, $\texttt{DRPO}$ can effectively counteract distributional shifts and ensure strict policy improvement in each federative learning round. Extensive experiments validate the significant performance gains of $\texttt{DRPO}$ over baseline methods.
- Abstract(参考訳): Federated Reinforcement Learning (FRL)は、モノのインターネット時代において、インテリジェントな意思決定のための有望なソリューションとみなされてきた。
しかし、既存のFRLアプローチは、しばしばローカル更新中に環境との繰り返しの相互作用を伴い、多くの現実世界のドメインでは違法に高価または不可能である。
この課題を克服するために、分散エージェントは、環境のさらなる相互作用を伴わずに、プライベートデータと静的データのみから決定ポリシーを協調的に学習することのできる、新しいオフラインフェデレーション最適化アルゴリズムである$\texttt{DRPO}$を提案する。
$\texttt{DRPO}$は、ローカルな行動ポリシーとグローバルな集約されたポリシーの両方を取り入れた二重正規化を利用して、オフラインFRLの本質的な2層分布シフトに、巧みに対処する。
理論的解析は、二重正則化が性能に与える影響を特徴付け、その正しいバランスを達成することで、$\texttt{DRPO}$は、分散シフトを効果的に防止し、各フェデレーティブ学習ラウンドにおける厳格な政策改善を確保することができることを示した。
大規模な実験は、$\texttt{DRPO}$ over baselineメソッドの大幅なパフォーマンス向上を検証する。
関連論文リスト
- A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective [29.977702744504466]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。
D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-12T02:43:41Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared
State Representation and Individual Policy Representation [31.9768280877473]
2次元状態表現と政策表現を用いた進化的強化学習(ERL-Re$2$)を提案する。
すべてのEAおよびRLポリシーは、個々の線形ポリシー表現を維持しながら、同じ非線形状態表現を共有している。
一連の連続制御タスクの実験では、ERL-Re$2$は、高度ベースラインを一貫して上回り、最先端アート(SOTA)を達成する。
論文 参考訳(メタデータ) (2022-10-26T10:34:48Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation
for Reinforcement Learning [43.61029925616256]
強化学習(RL)におけるオフラインポリシー評価は、実生活アプリケーションにRLを適用するための重要なステップである。
ポリシクラス$Pi$ -- OPEの統一収束を同時に評価することで、この問題に対処する。
以上の結果から,モデルベースプランニングにより,$widetildeO(H3/d_mepsilon2)$の最適なエピソード複雑性を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-07-07T19:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。