Fugu-MT 論文翻訳(概要): Diversity Actor-Critic: Sample-Aware Entropy Regularization for Sample-Efficient Exploration

論文の概要: Diversity Actor-Critic: Sample-Aware Entropy Regularization for Sample-Efficient Exploration

arxiv url: http://arxiv.org/abs/2006.01419v2
Date: Wed, 9 Jun 2021 03:05:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-25 23:08:20.308073
Title: Diversity Actor-Critic: Sample-Aware Entropy Regularization for Sample-Efficient Exploration
Title（参考訳）: ダイバーシティアクター・クライブ:サンプル効率な探索のためのサンプル認識エントロピー正規化
Authors: Seungyul Han, Youngchul Sung
Abstract要約: 提案したサンプル認識エントロピー正規化は、リプレイバッファから取得可能なサンプル分布をエクスプロイトすることにより、ポリシーアクション分布の重み付け和のエントロピーを最大化し、リプレイバッファからのサンプルアクション分布を最大化し、サンプリング効率の高い探索を行う。提案したサンプル認識エントロピー正則化を用いて,目的関数にポリシー反復を適用することで,多様性アクタクリティカル (DAC) という実用的なアルゴリズムを開発した。
参考スコア（独自算出の注目度）: 22.539300644593936
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, sample-aware policy entropy regularization is proposed to enhance the conventional policy entropy regularization for better exploration. Exploiting the sample distribution obtainable from the replay buffer, the proposed sample-aware entropy regularization maximizes the entropy of the weighted sum of the policy action distribution and the sample action distribution from the replay buffer for sample-efficient exploration. A practical algorithm named diversity actor-critic (DAC) is developed by applying policy iteration to the objective function with the proposed sample-aware entropy regularization. Numerical results show that DAC significantly outperforms existing recent algorithms for reinforcement learning.
Abstract（参考訳）: 本稿では,従来の政策エントロピー正規化を強化するために,サンプル対応ポリシエントロピー正規化を提案する。リプレイバッファから得られるサンプル分布を活用し、提案するサンプル認識エントロピー正規化により、リプレイバッファからのポリシーアクション分布の重み付き和とサンプルアクション分布のエントロピーを最大化し、サンプル効率の高い探索を行う。提案したサンプル認識エントロピー正則化を用いて,目的関数にポリシー反復を適用することで,多様性アクタクリティカル (DAC) という実用的なアルゴリズムを開発した。数値解析の結果,DACは強化学習のアルゴリズムよりも優れていた。

関連論文リスト

Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文参考訳（メタデータ） (2024-02-15T20:20:35Z)
Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文参考訳（メタデータ） (2024-02-07T18:51:49Z)
Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文参考訳（メタデータ） (2024-02-05T10:04:00Z)
Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文参考訳（メタデータ） (2023-02-05T04:44:35Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)
Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文参考訳（メタデータ） (2020-10-21T13:43:48Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文参考訳（メタデータ） (2020-02-17T13:16:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。