論文の概要: The Role of Deep Learning Regularizations on Actors in Offline RL
- arxiv url: http://arxiv.org/abs/2409.07606v3
- Date: Thu, 21 Nov 2024 14:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:16:48.534392
- Title: The Role of Deep Learning Regularizations on Actors in Offline RL
- Title(参考訳): オフラインRLのアクターに対するディープラーニング正規化の役割
- Authors: Denis Tarasov, Anja Surina, Caglar Gulcehre,
- Abstract要約: ドロップアウト、層正規化、ウェイト崩壊といったディープラーニング正規化技術は、現代の人工ニューラルネットワークの構築において広く採用されている。
本研究では,オフライン強化学習(RL)アルゴリズムにおけるアクターネットワークへの標準正規化手法の適用が,平均6%の改善をもたらすことを実証的に示す。
- 参考スコア(独自算出の注目度): 1.2744523252873352
- License:
- Abstract: Deep learning regularization techniques, such as dropout, layer normalization, or weight decay, are widely adopted in the construction of modern artificial neural networks, often resulting in more robust training processes and improved generalization capabilities. However, in the domain of Reinforcement Learning (RL), the application of these techniques has been limited, usually applied to value function estimators (Hiraoka et al., 2021; Smith et al., 2022), and may result in detrimental effects. This issue is even more pronounced in offline RL settings, which bear greater similarity to supervised learning but have received less attention. Recent work in continuous offline RL (Park et al., 2024) has demonstrated that while we can build sufficiently powerful critic networks, the generalization of actor networks remains a bottleneck. In this study, we empirically show that applying standard regularization techniques to actor networks in offline RL actor-critic algorithms yields improvements of 6% on average across two algorithms and three different continuous D4RL domains.
- Abstract(参考訳): ドロップアウト、レイヤー正規化、ウェイト崩壊といったディープラーニング正規化技術は、現代の人工知能ニューラルネットワークの構築において広く採用されており、多くの場合、より堅牢なトレーニングプロセスと一般化能力の向上をもたらす。
しかし、強化学習(RL)の分野では、これらの手法の適用は制限されており、通常は値関数推定器(Hiraoka et al , 2021; Smith et al , 2022)に適用され、有害な効果をもたらす可能性がある。
この問題はオフラインのRL設定でさらに顕著で、教師あり学習と似ているが、あまり注目されていない。
連続オフラインRL(Park et al , 2024)における最近の研究は、十分に強力な批評家ネットワークを構築することができる一方で、アクターネットワークの一般化はボトルネックのままであることを示した。
本研究では、2つのアルゴリズムと3つの異なる連続D4RLドメインに対して、オフラインRLアクター批判アルゴリズムにおけるアクターネットワークに標準正規化手法を適用することにより、平均6%の改善が得られることを実証的に示す。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。
RLの大きな難しさの1つは、i.i.d.データの欠如である。
本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文 参考訳(メタデータ) (2022-10-16T10:28:59Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - How to Make Deep RL Work in Practice [15.740760669623876]
最新のアルゴリズムの報告結果は、しばしば再現が困難である。
デフォルトで使用するテクニックのどれを推奨し、RLに特化されたソリューションの恩恵を受ける可能性のある領域を強調します。
論文 参考訳(メタデータ) (2020-10-25T10:37:54Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。