論文の概要: Optimal Actor-Critic Policy with Optimized Training Datasets
- arxiv url: http://arxiv.org/abs/2108.06911v1
- Date: Mon, 16 Aug 2021 06:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 23:21:16.717936
- Title: Optimal Actor-Critic Policy with Optimized Training Datasets
- Title(参考訳): 最適トレーニングデータセットを用いた最適アクタークリティカルポリシー
- Authors: Chayan Banerjee, Zhiyong Chen, Nasimul Noman and Mohsen Zamani
- Abstract要約: アクタークリティカル(AC)アルゴリズムは、強化学習問題の解法における有効性と高い性能で知られている。
サンプリング効率も低い。
本稿では,ACプロセスから収集したサンプルが大幅に少ないトレーニングデータセットを最適化する戦略を提案する。
- 参考スコア(独自算出の注目度): 8.372742131747522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Actor-critic (AC) algorithms are known for their efficacy and high
performance in solving reinforcement learning problems, but they also suffer
from low sampling efficiency. An AC based policy optimization process is
iterative and needs to frequently access the agent-environment system to
evaluate and update the policy by rolling out the policy, collecting rewards
and states (i.e. samples), and learning from them. It ultimately requires a
huge number of samples to learn an optimal policy. To improve sampling
efficiency, we propose a strategy to optimize the training dataset that
contains significantly less samples collected from the AC process. The dataset
optimization is made of a best episode only operation, a policy
parameter-fitness model, and a genetic algorithm module. The optimal policy
network trained by the optimized training dataset exhibits superior performance
compared to many contemporary AC algorithms in controlling autonomous dynamical
systems. Evaluation on standard benchmarks show that the method improves
sampling efficiency, ensures faster convergence to optima, and is more
data-efficient than its counterparts.
- Abstract(参考訳): アクタークリティカル(AC)アルゴリズムは、強化学習問題の解法における有効性と高い性能で知られているが、サンプリング効率も低い。
ACベースの政策最適化プロセスは反復的であり、エージェント環境システムに頻繁にアクセスしてポリシーをロールアウトし、報酬と状態(すなわち、報酬)を収集することでポリシーを評価し、更新する必要がある。
サンプル)とそれらから学ぶこと。
最終的には、最適なポリシーを学ぶために大量のサンプルが必要です。
サンプリング効率を向上させるため,ACプロセスから収集したサンプルをはるかに少ないトレーニングデータセットを最適化する手法を提案する。
データセット最適化は、最良のエピソードのみの操作、ポリシーパラメータ適合モデル、遺伝的アルゴリズムモジュールで構成されている。
最適化されたトレーニングデータセットによって訓練された最適ポリシーネットワークは、自律力学系を制御する多くの現代のacアルゴリズムよりも優れた性能を示す。
標準ベンチマークによる評価では,本手法はサンプリング効率を向上し,最適収束の高速化とデータ効率の向上を実現している。
関連論文リスト
- Primitive Agentic First-Order Optimization [0.0]
本研究では,一階強化学習として,原始状態表現とエージェント環境相互作用を組み合わせた概念実証研究を提案する。
その結果,RLに基づく最適化では,基本的RL法と簡潔な部分的状態表現を組み合わせることで,複雑性の管理を最適化できることがわかった。
論文 参考訳(メタデータ) (2024-06-07T11:13:38Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - A Data-Driven Evolutionary Transfer Optimization for Expensive Problems
in Dynamic Environments [9.098403098464704]
データ駆動、つまりサロゲート支援、進化的最適化は、高価なブラックボックス最適化問題に対処するための効果的なアプローチとして認識されている。
本稿では,データ駆動型進化的最適化により動的最適化問題を解くための,シンプルだが効果的な伝達学習フレームワークを提案する。
提案手法の有効性を実世界のケーススタディで実証した。
論文 参考訳(メタデータ) (2022-11-05T11:19:50Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。