論文の概要: Single-Shot Pruning for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.15579v1
- Date: Fri, 31 Dec 2021 18:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 15:02:36.575408
- Title: Single-Shot Pruning for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのシングルショットプルーニング
- Authors: Samin Yeasar Arnob, Riyasat Ohib, Sergey Plis, Doina Precup
- Abstract要約: 深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
- 参考スコア(独自算出の注目度): 47.886329599997474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (RL) is a powerful framework for solving complex
real-world problems. Large neural networks employed in the framework are
traditionally associated with better generalization capabilities, but their
increased size entails the drawbacks of extensive training duration,
substantial hardware resources, and longer inference times. One way to tackle
this problem is to prune neural networks leaving only the necessary parameters.
State-of-the-art concurrent pruning techniques for imposing sparsity perform
demonstrably well in applications where data distributions are fixed. However,
they have not yet been substantially explored in the context of RL. We close
the gap between RL and single-shot pruning techniques and present a general
pruning approach to the Offline RL. We leverage a fixed dataset to prune neural
networks before the start of RL training. We then run experiments varying the
network sparsity level and evaluating the validity of pruning at initialization
techniques in continuous control tasks. Our results show that with 95% of the
network weights pruned, Offline-RL algorithms can still retain performance in
the majority of our experiments. To the best of our knowledge, no prior work
utilizing pruning in RL retained performance at such high levels of sparsity.
Moreover, pruning at initialization techniques can be easily integrated into
any existing Offline-RL algorithms without changing the learning objective.
- Abstract(参考訳): deep reinforcement learning(rl)は、複雑な現実世界の問題を解決する強力なフレームワークである。
フレームワークで使用される大規模なニューラルネットワークは、伝統的により優れた一般化機能に関連付けられているが、そのサイズの増加は、広範なトレーニング期間、相当なハードウェアリソース、より長い推論時間の欠点を伴う。
この問題に取り組む1つの方法は、必要なパラメータだけを残すニューラルネットワークをpruneすることです。
データの分散が固定されたアプリケーションでは,最先端の並列プルーニング手法が極めてうまく機能する。
しかし、これらはまだRLの文脈で十分に研究されていない。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
固定データセットを利用して、RLトレーニングを開始する前にニューラルネットワークをプルークする。
次に,ネットワーク幅の異なる実験を行い,連続制御タスクの初期化手法におけるプルーニングの有効性を評価する。
以上の結果から,ネットワーク重みの95%を切断したオフラインRLアルゴリズムは,実験の大部分で性能を維持できることがわかった。
我々の知る限り、RLにおけるプルーニングを利用した事前の作業は、これほど高いレベルの性能を維持しませんでした。
さらに、初期化手法でのプルーニングは学習目標を変更することなく既存のオフライン-RLアルゴリズムに容易に組み込むことができる。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。
RLの大きな難しさの1つは、i.i.d.データの欠如である。
本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文 参考訳(メタデータ) (2022-10-16T10:28:59Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。
本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。
この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T02:16:54Z) - Hierarchical Reinforcement Learning for Relay Selection and Power
Optimization in Two-Hop Cooperative Relay Network [7.5377621697101205]
本研究では,2ホップ協調型中継ネットワークにおいて,送信電力の制約を考慮に入れた停止確率最小化問題について検討する。
我々は、リレー選択と配電のための戦略を学ぶために強化学習(RL)手法を用いる。
階層型強化学習(HRL)フレームワークとトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-10T04:47:41Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z) - Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。
ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文 参考訳(メタデータ) (2020-02-19T17:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。