Fugu-MT 論文翻訳(概要): Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks

論文の概要: Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks

arxiv url: http://arxiv.org/abs/2211.11869v1
Date: Mon, 21 Nov 2022 21:42:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 17:26:44.230931
Title: Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks
Title（参考訳）: パーソナライゼーションタスクのための強化学習エージェントのポリシーエントロピーの検討
Authors: Anton Dereventsov, Andrew Starnes, Clayton G. Webster
Abstract要約: 本研究は, パーソナライズ環境における強化学習システムの行動調査に焦点をあてる。本研究では,これらのエントロピーの違いが採用される学習の種類に起因することを示すため,多種多様な数値実験と理論的正当性を提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This effort is focused on examining the behavior of reinforcement learning systems in personalization environments and detailing the differences in policy entropy associated with the type of learning algorithm utilized. We demonstrate that Policy Optimization agents often possess low-entropy policies during training, which in practice results in agents prioritizing certain actions and avoiding others. Conversely, we also show that Q-Learning agents are far less susceptible to such behavior and generally maintain high-entropy policies throughout training, which is often preferable in real-world applications. We provide a wide range of numerical experiments as well as theoretical justification to show that these differences in entropy are due to the type of learning being employed.
Abstract（参考訳）: 本研究は, パーソナライズ環境における強化学習システムの挙動を把握し, 利用した学習アルゴリズムの種類に関連する政策エントロピーの違いを詳述する。ポリシー最適化エージェントはトレーニング中に低エントロピーポリシを持つことが多く,その結果としてエージェントは特定のアクションを優先し,他のアクションを避けることができる。逆に,q-learningエージェントはそのような行動に対する感受性が低く,一般的にはトレーニングを通じて高いエントロピーポリシーが維持されていることも示している。本研究では,これらのエントロピーの違いが採用される学習の種類に起因することを示すため,幅広い数値実験と理論的正当性を提供する。

関連論文リスト

Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning [1.0762853848552156]
我々は60以上の異なる非政治エージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。これらのエージェントは,2つのシミュレーションベンチマークから,過大評価,過度適合,可塑性損失に関連するトレーニング指標を測定した。ソフトアクター・クライブエージェントは、適切に正規化され、トレーニング体制内でより優れたパフォーマンスのポリシーを確実に見つける。
論文参考訳（メタデータ） (2024-03-01T13:25:10Z)
Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。 ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。 ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文参考訳（メタデータ） (2023-11-02T16:52:36Z)
Increasing Entropy to Boost Policy Gradient Performance on Personalization Tasks [0.46040036610482665]
政策勾配を用いて訓練した強化学習エージェントから得られた政策の多様性に及ぼす正規化の影響を考察する。数値的な証拠は、ポリシーの正則化が、精度を損なうことなく、性能を向上させることを示すために与えられる。
論文参考訳（メタデータ） (2023-10-09T01:03:05Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文参考訳（メタデータ） (2022-08-01T11:33:12Z)
Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文参考訳（メタデータ） (2022-06-05T08:49:16Z)
Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文参考訳（メタデータ） (2022-03-07T17:32:35Z)
Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文参考訳（メタデータ） (2020-11-02T16:19:44Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
Invariant Policy Optimization: Towards Stronger Generalization in Reinforcement Learning [5.476958867922322]
強化学習の基本的な課題は、訓練中に経験した操作領域を超えて一般化するポリシーを学ぶことである。本稿では,この原則を実装した新しい学習アルゴリズムである不変ポリシー最適化(IPO)を提案し,トレーニング中に不変ポリシーを学習する。
論文参考訳（メタデータ） (2020-06-01T17:28:19Z)
Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。実演なしで指導的学習を通じて効果的な政策を学べるか? 政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文参考訳（メタデータ） (2019-12-31T18:07:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。