論文の概要: Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.00514v2
- Date: Wed, 19 Jun 2024 11:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 04:59:27.306480
- Title: Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning
- Title(参考訳): アクタークリティカルにおける過大評価, 過大適合, 塑性 -強化学習の分岐授業-
- Authors: Michal Nauman, Michał Bortkiewicz, Piotr Miłoś, Tomasz Trzciński, Mateusz Ostaszewski, Marek Cygan,
- Abstract要約: 我々は60以上の異なる非政治エージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。
これらのエージェントは,2つのシミュレーションベンチマークから,過大評価,過度適合,可塑性損失に関連するトレーニング指標を測定した。
ソフトアクター・クライブエージェントは、適切に正規化され、トレーニング体制内でより優れたパフォーマンスのポリシーを確実に見つける。
- 参考スコア(独自算出の注目度): 1.0762853848552156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in off-policy Reinforcement Learning (RL) have significantly improved sample efficiency, primarily due to the incorporation of various forms of regularization that enable more gradient update steps than traditional agents. However, many of these techniques have been tested in limited settings, often on tasks from single simulation benchmarks and against well-known algorithms rather than a range of regularization approaches. This limits our understanding of the specific mechanisms driving RL improvements. To address this, we implemented over 60 different off-policy agents, each integrating established regularization techniques from recent state-of-the-art algorithms. We tested these agents across 14 diverse tasks from 2 simulation benchmarks, measuring training metrics related to overestimation, overfitting, and plasticity loss -- issues that motivate the examined regularization techniques. Our findings reveal that while the effectiveness of a specific regularization setup varies with the task, certain combinations consistently demonstrate robust and superior performance. Notably, a simple Soft Actor-Critic agent, appropriately regularized, reliably finds a better-performing policy within the training regime, which previously was achieved mainly through model-based approaches.
- Abstract(参考訳): オフ・ポリティクス強化学習(RL)の最近の進歩は、主に従来のエージェントよりも勾配更新のステップを増やせるような様々な形態の正規化の導入により、サンプル効率を著しく改善している。
しかし、これらの技法の多くは限定的な設定でテストされ、しばしばシングルシミュレーションベンチマークのタスクや、様々な正規化アプローチではなくよく知られたアルゴリズムに対してテストされている。
これにより、RLの改善を促進する特定のメカニズムの理解が制限されます。
これを解決するために60以上のオフポリシーエージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。
これらのエージェントは、2つのシミュレーションベンチマークから、過大評価、過度な適合、可塑性損失に関連するトレーニングメトリクスを測定することで、調査された正規化テクニックを動機付ける14のタスクにわたってテストしました。
その結果、特定の正規化設定の有効性はタスクによって異なるが、特定の組み合わせは一貫して堅牢で優れた性能を示すことがわかった。
特に、ソフトアクター・クライブエージェントは、適切に正規化され、従来は主にモデルベースのアプローチによって達成されていたトレーニング体制の中で、より良いパフォーマンスのポリシーを確実に見つける。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - A Connection between One-Step Regularization and Critic Regularization
in Reinforcement Learning [163.44116192806922]
1ステップの手法は、政策改善の1ステップだけを実行することで正規化を行う。
批判的正規化手法は 政策改善の多くのステップを 正規化の目的で行います
多段階批判正規化法を1イテレーションの正規化係数で適用すると、1ステップRLと同じポリシーが得られる。
論文 参考訳(メタデータ) (2023-07-24T17:46:32Z) - Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。
これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文 参考訳(メタデータ) (2023-05-05T15:33:39Z) - Computationally Efficient Reinforcement Learning: Targeted Exploration
leveraging Simple Rules [1.124958340749622]
本稿では,このようなルールを組み込むための,連続的アクター批判フレームワークの簡易かつ効果的な修正を提案する。
室内温度制御のケーススタディでは、エージェントは古典的なエージェントよりも最大6~7倍の速さで優れたポリシーに収束することができる。
論文 参考訳(メタデータ) (2022-11-30T02:24:42Z) - Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks [0.40964539027092917]
本研究は, パーソナライズ環境における強化学習システムの行動調査に焦点をあてる。
本研究では,これらのエントロピーの違いが採用される学習の種類に起因することを示すため,多種多様な数値実験と理論的正当性を提供する。
論文 参考訳(メタデータ) (2022-11-21T21:42:50Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。