Fugu-MT 論文翻訳(概要): Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse

論文の概要: Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse

arxiv url: http://arxiv.org/abs/2206.13714v3
Date: Fri, 11 Oct 2024 20:43:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 00:06:54.273461
Title: Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse
Title（参考訳）: 理論的に支援されたサンプル再利用を用いた一般政策改善アルゴリズム
Authors: James Queeney, Ioannis Ch. Paschalidis, Christos G. Cassandras,
Abstract要約: 我々は,データ駆動型学習ベース制御のためのモデルフリー深層強化学習アルゴリズムを新たに開発した。当社の一般政策改善アルゴリズムは,オンライン手法の政策改善保証とサンプル再利用の効率化を両立させる。
参考スコア（独自算出の注目度）: 15.134707391442236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We develop a new class of model-free deep reinforcement learning algorithms for data-driven, learning-based control. Our Generalized Policy Improvement algorithms combine the policy improvement guarantees of on-policy methods with the efficiency of sample reuse, addressing a trade-off between two important deployment requirements for real-world control: (i) practical performance guarantees and (ii) data efficiency. We demonstrate the benefits of this new class of algorithms through extensive experimental analysis on a broad range of simulated control tasks.
Abstract（参考訳）: 我々は,データ駆動型学習ベース制御のためのモデルフリー深層強化学習アルゴリズムを新たに開発した。当社の一般政策改善アルゴリズムは、実世界の規制における2つの重要な展開要件のトレードオフに対処するため、オンライン手法の政策改善保証とサンプル再利用の効率を組み合わせる。一実用的性能保証及び性能保証 (ii)データ効率。シミュレーション制御タスクの広範な実験分析を通じて,この新しいアルゴリズムの利点を実証する。

関連論文リスト

RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。 D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-06-09T07:46:24Z)
Distillation Policy Optimization [5.439020425819001]
本研究では,評価と制御の両面において2つのデータソースを調和させるアクタ批判学習フレームワークを提案する。このフレームワークには、統一利便推定器(UAE)と残留基線を含む分散還元機構が組み込まれている。以上の結果から,オンラインアルゴリズムのサンプル効率は大幅に向上し,非政治的アプローチとのギャップを効果的に埋めることができた。
論文参考訳（メタデータ） (2023-02-01T15:59:57Z)
Enforcing the consensus between Trajectory Optimization and Policy Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文参考訳（メタデータ） (2022-09-19T13:32:09Z)
POLTER: Policy Trajectory Ensemble Regularization for Unsupervised Reinforcement Learning [30.834631947104498]
本稿では,任意のURLアルゴリズムに適用可能な事前学習を正規化するためのPOLTERを提案する。教師なし強化学習ベンチマーク(URLB)におけるPOLTERの評価を行った。本稿では,データと知識に基づく多種多様なURLアルゴリズムの性能を,平均19%,ベストケースで最大40%向上させることで,このアプローチの汎用性を実証する。
論文参考訳（メタデータ） (2022-05-23T14:42:38Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Generalized Proximal Policy Optimization with Sample Reuse [8.325359814939517]
我々は、オン・ポリシー・アルゴリズムの理論的に支持された安定性の利点とオフ・ポリシー・アルゴリズムのサンプル効率を組み合わせる。我々は、政策改善の保証を開発し、その境界を政策最適化に使用するクリッピング機構に接続する。これは、我々がGeneralized Proximal Policy Optimization with Sample Reuseと呼ぶ、一般的なアルゴリズムの非政治バージョンを動機付けます。
論文参考訳（メタデータ） (2021-10-29T20:22:31Z)
Semi-On-Policy Training for Sample Efficient Multi-Agent Policy Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2021-04-27T19:37:01Z)
Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文参考訳（メタデータ） (2021-02-22T14:28:03Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文参考訳（メタデータ） (2020-01-09T10:13:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。