論文の概要: Decorrelated Soft Actor-Critic for Efficient Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.19133v1
- Date: Fri, 31 Jan 2025 13:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:04.099835
- Title: Decorrelated Soft Actor-Critic for Efficient Deep Reinforcement Learning
- Title(参考訳): 効率的な深層強化学習のためのソフトアクター批判
- Authors: Burcu Küçükoğlu, Sander Dalm, Marcel van Gerven,
- Abstract要約: 本稿では,Decorrelated backpropagationアルゴリズムに基づく深部RLのオンラインデコレーション手法を提案する。
DSACを使用したAtari 100kベンチマークの実験では、通常のSACベースラインと比較して、テストされた7試合中5試合でより高速なトレーニングが行われた。
- 参考スコア(独自算出の注目度): 1.2597747768235847
- License:
- Abstract: The effectiveness of credit assignment in reinforcement learning (RL) when dealing with high-dimensional data is influenced by the success of representation learning via deep neural networks, and has implications for the sample efficiency of deep RL algorithms. Input decorrelation has been previously introduced as a method to speed up optimization in neural networks, and has proven impactful in both efficient deep learning and as a method for effective representation learning for deep RL algorithms. We propose a novel approach to online decorrelation in deep RL based on the decorrelated backpropagation algorithm that seamlessly integrates the decorrelation process into the RL training pipeline. Decorrelation matrices are added to each layer, which are updated using a separate decorrelation learning rule that minimizes the total decorrelation loss across all layers, in parallel to minimizing the usual RL loss. We used our approach in combination with the soft actor-critic (SAC) method, which we refer to as decorrelated soft actor-critic (DSAC). Experiments on the Atari 100k benchmark with DSAC shows, compared to the regular SAC baseline, faster training in five out of the seven games tested and improved reward performance in two games with around 50% reduction in wall-clock time, while maintaining performance levels on the other games. These results demonstrate the positive impact of network-wide decorrelation in deep RL for speeding up its sample efficiency through more effective credit assignment.
- Abstract(参考訳): 高次元データを扱う際の強化学習(RL)における信用割当の有効性は、ディープニューラルネットワークによる表現学習の成功に影響され、ディープRLアルゴリズムのサンプル効率に影響を及ぼす。
入力デコリレーションは、ニューラルネットワークの最適化を高速化する手法として導入され、効率的な深層学習と深部RLアルゴリズムの効率的な表現学習方法の両方に影響を与えている。
本稿では,このデコリレーション処理をRLトレーニングパイプラインにシームレスに統合する,デコリレーションバックプロパゲーションアルゴリズムに基づく深部RLのオンラインデコリレーション手法を提案する。
各層にデコリレーション行列を追加し、通常のRL損失の最小化と並行して、すべての層間でのデコリレーション損失の総和を最小限に抑える別個のデコリレーション学習ルールを用いて更新する。
我々は,ソフトアクター・クリティック (SAC) 法と組み合わせて,デココリックス・ソフトアクター・クリティック (DSAC) と呼ぶ手法を用いた。
DSACによるAtari 100kベンチマークの実験では、通常のSACベースラインと比較して、テストされた7試合中5試合のトレーニングを高速化し、ウォールタイムを約50%削減し、他のゲームのパフォーマンスレベルを維持しながら、2試合での報酬パフォーマンスを改善した。
これらの結果は、より効果的なクレジット割り当てによってサンプリング効率を向上するために、ディープRLにおけるネットワークワイドデコリレーションの正の効果を示す。
関連論文リスト
- Broad Critic Deep Actor Reinforcement Learning for Continuous Control [5.440090782797941]
アクター批判強化学習(RL)アルゴリズムのための新しいハイブリッドアーキテクチャを提案する。
提案したアーキテクチャは、広範学習システム(BLS)とディープニューラルネットワーク(DNN)を統合している。
提案アルゴリズムの有効性を2つの古典的連続制御タスクに適用することにより評価する。
論文 参考訳(メタデータ) (2024-11-24T12:24:46Z) - Efficient Deep Learning with Decorrelated Backpropagation [1.9731499060686393]
Decorrelated backpropagationを用いた非常に深いニューラルネットワークのより効率的なトレーニングが実現可能であることを初めて示します。
我々は18層深層ネットワークのトレーニングにおいて,バックプロパゲーションに比べて2倍以上のスピードアップと高いテスト精度を得る。
論文 参考訳(メタデータ) (2024-05-03T17:21:13Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Deep Learning Meets Adaptive Filtering: A Stein's Unbiased Risk
Estimator Approach [13.887632153924512]
本稿では,Deep RLSとDeep EASIというタスクベースのディープラーニングフレームワークを紹介する。
これらのアーキテクチャは、元のアルゴリズムの繰り返しをディープニューラルネットワークの層に変換し、効率的なソース信号推定を可能にする。
性能をさらに向上するために、我々は、スタインの非バイアスリスク推定器(SURE)に基づく代理損失関数を用いた、これらの深層無ロールネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2023-07-31T14:26:41Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - On the Robustness of Controlled Deep Reinforcement Learning for Slice
Placement [0.8459686722437155]
我々は、純粋なDRLベースアルゴリズムとハイブリッドDRLヒューリスティックアルゴリズムである2つのDeep Reinforcement Learningアルゴリズムを比較した。
評価結果から,提案手法は純粋なDRLよりも予測不可能なネットワーク負荷変化の場合に,より堅牢で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2021-08-05T10:24:33Z) - Controlled Deep Reinforcement Learning for Optimized Slice Placement [0.8459686722437155]
我々は、"Heuristally Assisted Deep Reinforcement Learning (HA-DRL)"と呼ばれるハイブリッドML-ヒューリスティックアプローチを提案する。
提案手法は,最近のDeep Reinforcement Learning (DRL) によるスライス配置と仮想ネットワーク埋め込み (VNE) に活用されている。
評価結果から,提案したHA-DRLアルゴリズムは,効率的なスライス配置ポリシーの学習を高速化できることが示された。
論文 参考訳(メタデータ) (2021-08-03T14:54:00Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。