論文の概要: Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse
- arxiv url: http://arxiv.org/abs/2206.13714v3
- Date: Fri, 11 Oct 2024 20:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:56.285287
- Title: Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse
- Title(参考訳): 理論的に支援されたサンプル再利用を用いた一般政策改善アルゴリズム
- Authors: James Queeney, Ioannis Ch. Paschalidis, Christos G. Cassandras,
- Abstract要約: 我々は,データ駆動型学習ベース制御のためのモデルフリー深層強化学習アルゴリズムを新たに開発した。
当社の一般政策改善アルゴリズムは,オンライン手法の政策改善保証とサンプル再利用の効率化を両立させる。
- 参考スコア(独自算出の注目度): 15.134707391442236
- License:
- Abstract: We develop a new class of model-free deep reinforcement learning algorithms for data-driven, learning-based control. Our Generalized Policy Improvement algorithms combine the policy improvement guarantees of on-policy methods with the efficiency of sample reuse, addressing a trade-off between two important deployment requirements for real-world control: (i) practical performance guarantees and (ii) data efficiency. We demonstrate the benefits of this new class of algorithms through extensive experimental analysis on a broad range of simulated control tasks.
- Abstract(参考訳): 我々は,データ駆動型学習ベース制御のためのモデルフリー深層強化学習アルゴリズムを新たに開発した。
当社の一般政策改善アルゴリズムは、実世界の規制における2つの重要な展開要件のトレードオフに対処するため、オンライン手法の政策改善保証とサンプル再利用の効率を組み合わせる。
一 実用的性能保証及び性能保証
(ii)データ効率。
シミュレーション制御タスクの広範な実験分析を通じて,この新しいアルゴリズムの利点を実証する。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Distillation Policy Optimization [5.439020425819001]
本研究では,評価と制御の両面において2つのデータソースを調和させるアクタ批判学習フレームワークを提案する。
このフレームワークには、統一利便推定器(UAE)と残留基線を含む分散還元機構が組み込まれている。
以上の結果から,オンラインアルゴリズムのサンプル効率は大幅に向上し,非政治的アプローチとのギャップを効果的に埋めることができた。
論文 参考訳(メタデータ) (2023-02-01T15:59:57Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - POLTER: Policy Trajectory Ensemble Regularization for Unsupervised
Reinforcement Learning [30.834631947104498]
本稿では,任意のURLアルゴリズムに適用可能な事前学習を正規化するためのPOLTERを提案する。
教師なし強化学習ベンチマーク(URLB)におけるPOLTERの評価を行った。
本稿では,データと知識に基づく多種多様なURLアルゴリズムの性能を,平均19%,ベストケースで最大40%向上させることで,このアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2022-05-23T14:42:38Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Generalized Proximal Policy Optimization with Sample Reuse [8.325359814939517]
我々は、オン・ポリシー・アルゴリズムの理論的に支持された安定性の利点とオフ・ポリシー・アルゴリズムのサンプル効率を組み合わせる。
我々は、政策改善の保証を開発し、その境界を政策最適化に使用するクリッピング機構に接続する。
これは、我々がGeneralized Proximal Policy Optimization with Sample Reuseと呼ぶ、一般的なアルゴリズムの非政治バージョンを動機付けます。
論文 参考訳(メタデータ) (2021-10-29T20:22:31Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。