Fugu-MT 論文翻訳(概要): Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning

論文の概要: Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning

arxiv url: http://arxiv.org/abs/2403.00514v1
Date: Fri, 1 Mar 2024 13:25:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 17:14:55.532774
Title: Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning
Title（参考訳）: アクタークリティカルにおける過大評価, 過大適合, 塑性:強化学習の分岐授業
Authors: Michal Nauman, Micha{\l} Bortkiewicz, Mateusz Ostaszewski, Piotr Mi{\l}o\'s, Tomasz Trzci\'nski, Marek Cygan
Abstract要約: 我々は60以上の異なる非政治エージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。 2つのシミュレーションベンチマークから14のタスクにまたがってこれらのエージェントをテストした。その結果、特定の正規化設定の有効性はタスクによって異なるが、特定の組み合わせは一貫して堅牢で優れた性能を示すことがわかった。
参考スコア（独自算出の注目度）: 15.615763010305514
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in off-policy Reinforcement Learning (RL) have significantly improved sample efficiency, primarily due to the incorporation of various forms of regularization that enable more gradient update steps than traditional agents. However, many of these techniques have been tested in limited settings, often on tasks from single simulation benchmarks and against well-known algorithms rather than a range of regularization approaches. This limits our understanding of the specific mechanisms driving RL improvements. To address this, we implemented over 60 different off-policy agents, each integrating established regularization techniques from recent state-of-the-art algorithms. We tested these agents across 14 diverse tasks from 2 simulation benchmarks. Our findings reveal that while the effectiveness of a specific regularization setup varies with the task, certain combinations consistently demonstrate robust and superior performance. Notably, a simple Soft Actor-Critic agent, appropriately regularized, reliably solves dog tasks, which were previously solved mainly through model-based approaches.
Abstract（参考訳）: オフ・ポリティクス強化学習(RL)の最近の進歩は、主に従来のエージェントよりも勾配更新のステップを増やせるような様々な形態の正規化の導入により、サンプル効率を著しく改善している。しかし、これらの技法の多くは限定的な設定でテストされ、しばしばシングルシミュレーションベンチマークのタスクや、様々な正規化アプローチではなくよく知られたアルゴリズムに対してテストされている。これにより、RLの改善を促進する特定のメカニズムの理解が制限されます。これを解決するために60以上のオフポリシーエージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。 2つのシミュレーションベンチマークから14のタスクでこれらのエージェントをテストしました。その結果、特定の正規化設定の有効性はタスクによって異なるが、特定の組み合わせは一貫して堅牢で優れた性能を示すことがわかった。特に、適切な正規化がなされた単純なソフトアクタ-クリティックエージェントは、主にモデルベースのアプローチによって解決された犬のタスクを確実に解決します。

関連論文リスト

Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文参考訳（メタデータ） (2026-01-25T07:09:20Z)
CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent [53.56274149236814]
CARLは,多段階エージェントに適した,クリティカルアクションに着目した強化学習アルゴリズムである。 Carlは、トレーニング中のパフォーマンスと高い効率の両方を達成し、さまざまな評価設定にわたって推論を行う。
論文参考訳（メタデータ） (2025-12-04T16:15:46Z)
Enhancing One-run Privacy Auditing with Quantile Regression-Based Membership Inference [22.843200081364873]
Differential Privacy(DP)監査は、DP-SGDのようなDPメカニズムのプライバシー保証を実証的に低くすることを目的としている。近年,DP-SGDをホワイトボックス設定で効果的に評価できる一方的な監査手法が提案されている。本研究では,より強力なメンバーシップ推論攻撃(MIA)へのアプローチを取り入れることで,ブラックボックス環境でのワンラン監査を改善する方法について検討する。
論文参考訳（メタデータ） (2025-06-18T11:03:39Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2024-02-22T13:22:06Z)
NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文参考訳（メタデータ） (2023-07-25T13:35:45Z)
A Connection between One-Step Regularization and Critic Regularization in Reinforcement Learning [163.44116192806922]
1ステップの手法は、政策改善の1ステップだけを実行することで正規化を行う。批判的正規化手法は政策改善の多くのステップを正規化の目的で行います多段階批判正規化法を1イテレーションの正規化係数で適用すると、1ステップRLと同じポリシーが得られる。
論文参考訳（メタデータ） (2023-07-24T17:46:32Z)
Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文参考訳（メタデータ） (2023-05-05T15:33:39Z)
Computationally Efficient Reinforcement Learning: Targeted Exploration leveraging Simple Rules [1.124958340749622]
本稿では,このようなルールを組み込むための,連続的アクター批判フレームワークの簡易かつ効果的な修正を提案する。室内温度制御のケーススタディでは、エージェントは古典的なエージェントよりも最大6～7倍の速さで優れたポリシーに収束することができる。
論文参考訳（メタデータ） (2022-11-30T02:24:42Z)
Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks [0.40964539027092917]
本研究は, パーソナライズ環境における強化学習システムの行動調査に焦点をあてる。本研究では,これらのエントロピーの違いが採用される学習の種類に起因することを示すため,多種多様な数値実験と理論的正当性を提供する。
論文参考訳（メタデータ） (2022-11-21T21:42:50Z)
Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文参考訳（メタデータ） (2022-09-01T15:27:46Z)
Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文参考訳（メタデータ） (2022-02-17T01:14:20Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。