論文の概要: Online Training and Pruning of Deep Reinforcement Learning Networks
- arxiv url: http://arxiv.org/abs/2507.11975v1
- Date: Wed, 16 Jul 2025 07:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.270579
- Title: Online Training and Pruning of Deep Reinforcement Learning Networks
- Title(参考訳): 深層強化学習ネットワークのオンライントレーニングと運用
- Authors: Valentin Frank Ingmar Guenter, Athanasios Sideris,
- Abstract要約: 強化学習(RL)アルゴリズムのディープニューラルネットワーク(NN)のスケーリングは、特徴抽出ネットワークを使用する場合のパフォーマンスを向上させることが示されている。
先進RL法において,同時学習とプルーニングを併用する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling deep neural networks (NN) of reinforcement learning (RL) algorithms has been shown to enhance performance when feature extraction networks are used but the gained performance comes at the significant expense of increased computational and memory complexity. Neural network pruning methods have successfully addressed this challenge in supervised learning. However, their application to RL is underexplored. We propose an approach to integrate simultaneous training and pruning within advanced RL methods, in particular to RL algorithms enhanced by the Online Feature Extractor Network (OFENet). Our networks (XiNet) are trained to solve stochastic optimization problems over the RL networks' weights and the parameters of variational Bernoulli distributions for 0/1 Random Variables $\xi$ scaling each unit in the networks. The stochastic problem formulation induces regularization terms that promote convergence of the variational parameters to 0 when a unit contributes little to the performance. In this case, the corresponding structure is rendered permanently inactive and pruned from its network. We propose a cost-aware, sparsity-promoting regularization scheme, tailored to the DenseNet architecture of OFENets expressing the parameter complexity of involved networks in terms of the parameters of the RVs in these networks. Then, when matching this cost with the regularization terms, the many hyperparameters associated with them are automatically selected, effectively combining the RL objectives and network compression. We evaluate our method on continuous control benchmarks (MuJoCo) and the Soft Actor-Critic RL agent, demonstrating that OFENets can be pruned considerably with minimal loss in performance. Furthermore, our results confirm that pruning large networks during training produces more efficient and higher performing RL agents rather than training smaller networks from scratch.
- Abstract(参考訳): 強化学習(RL)アルゴリズムのディープニューラルネットワーク(NN)のスケーリングは、特徴抽出ネットワークを使用する場合のパフォーマンスを向上させることが示されている。
ニューラルネットワークのプルーニング手法は、教師あり学習におけるこの課題にうまく対処している。
しかし、RLへの応用は未定である。
本稿では,オンライン・フィーチャー・エクストラクタ・ネットワーク(OFENet)によって強化されたRLアルゴリズムに対して,高度なRL手法における同時学習とプルーニングの統合手法を提案する。
我々のネットワーク(XiNet)は、RLネットワークの重みに対する確率的最適化問題と、0/1ランダム変数に対する変分ベルヌーイ分布のパラメータをネットワーク内の各ユニットをスケールするために訓練されている。
確率的問題定式化は、単位が性能にほとんど寄与しないとき、変分パラメータの0への収束を促進する正規化項を誘導する。
この場合、対応する構造は永久に不活性化され、ネットワークから切断される。
本稿では,これらのネットワークにおけるRVのパラメータの観点から,関係するネットワークのパラメータの複雑さを表す,OFENetsのDenseNetアーキテクチャに合わせた,費用対効果の高い正規化スキームを提案する。
そして、このコストを正規化項に合わせると、それらに関連する多くのハイパーパラメータを自動的に選択し、RL目標とネットワーク圧縮を効果的に組み合わせる。
我々は,連続制御ベンチマーク (MuJoCo) とソフトアクター・クリティカル RL エージェントについて評価し,OFENets が性能の低下を最小限に抑えられることを示した。
さらに,本研究の結果から,スクラッチから小さなネットワークをトレーニングするよりも,大規模ネットワークを切断することで,より効率的で高性能なRLエージェントが得られることを確認した。
関連論文リスト
- Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Interpretable Reinforcement Learning for Load Balancing using Kolmogorov-Arnold Networks [6.373998211961586]
強化学習(RL)は、ロードバランシングなどのネットワーク制御問題にますます適用されてきた。
既存のRLアプローチは、しばしば解釈可能性の欠如と制御方程式の抽出の難しさに悩まされる。
本稿では,ネットワーク制御におけるRLの解釈にKAN(Kolmogorov-Arnold Networks)を用いることを提案する。
論文 参考訳(メタデータ) (2025-05-20T14:56:31Z) - Efficient Training of Deep Neural Operator Networks via Randomized Sampling [0.0]
本稿では,DeepONetのトレーニングに採用するランダムサンプリング手法を提案する。
従来のトレーニングアプローチと比較して、テスト全体のエラーを同等あるいは低いものにしながら、トレーニング時間の大幅な削減を実証する。
この結果から,訓練中のトランクネットワーク入力にランダム化を組み込むことで,DeepONetの効率性とロバスト性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-20T07:18:31Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - On the Robustness of Controlled Deep Reinforcement Learning for Slice
Placement [0.8459686722437155]
我々は、純粋なDRLベースアルゴリズムとハイブリッドDRLヒューリスティックアルゴリズムである2つのDeep Reinforcement Learningアルゴリズムを比較した。
評価結果から,提案手法は純粋なDRLよりも予測不可能なネットワーク負荷変化の場合に,より堅牢で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2021-08-05T10:24:33Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。