論文の概要: Eau De $Q$-Network: Adaptive Distillation of Neural Networks in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.01437v1
- Date: Mon, 03 Mar 2025 11:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:57.898357
- Title: Eau De $Q$-Network: Adaptive Distillation of Neural Networks in Deep Reinforcement Learning
- Title(参考訳): Eau De $Q$-Network: ディープ強化学習におけるニューラルネットワークの適応蒸留
- Authors: Théo Vincent, Tim Faust, Yogesh Tripathi, Jan Peters, Carlo D'Eramo,
- Abstract要約: 本稿では,エージェントの学習速度の間隔を増大させる高密度なスパースアルゴリズムを提案する。
提案手法をAtari $2600$ベンチマークとMuJoCo物理シミュレータで評価した。
- 参考スコア(独自算出の注目度): 17.356042621424567
- License:
- Abstract: Recent works have successfully demonstrated that sparse deep reinforcement learning agents can be competitive against their dense counterparts. This opens up opportunities for reinforcement learning applications in fields where inference time and memory requirements are cost-sensitive or limited by hardware. Until now, dense-to-sparse methods have relied on hand-designed sparsity schedules that are not synchronized with the agent's learning pace. Crucially, the final sparsity level is chosen as a hyperparameter, which requires careful tuning as setting it too high might lead to poor performances. In this work, we address these shortcomings by crafting a dense-to-sparse algorithm that we name Eau De $Q$-Network (EauDeQN). To increase sparsity at the agent's learning pace, we consider multiple online networks with different sparsity levels, where each online network is trained from a shared target network. At each target update, the online network with the smallest loss is chosen as the next target network, while the other networks are replaced by a pruned version of the chosen network. We evaluate the proposed approach on the Atari $2600$ benchmark and the MuJoCo physics simulator, showing that EauDeQN reaches high sparsity levels while keeping performances high.
- Abstract(参考訳): 近年の研究では、疎密な強化学習エージェントが、密集したエージェントと競争できることが実証されている。
これにより、推論時間やメモリ要求がハードウェアによって制限される分野において、強化学習応用の機会が開ける。
これまでは、エージェントの学習ペースと同期しない手書きの間隔スケジュールに依存していた。
重要な点として、最後のスペーサレベルがハイパーパラメータとして選択されるため、設定が高すぎるとパフォーマンスが低下する可能性があるため、注意深いチューニングが必要になる。
そこで本研究では,Eau De $Q$-Network (EauDeQN) という高密度・スパースアルゴリズムを用いて,これらの欠点に対処する。
エージェントの学習ペースでスパシティを高めるために、各オンラインネットワークが共有対象ネットワークからトレーニングされるような、異なるスパシティレベルを持つ複数のオンラインネットワークを検討する。
各ターゲット更新において、最小損失のオンラインネットワークが次のターゲットネットワークとして選択され、他のネットワークが選択されたネットワークの切り抜きバージョンに置き換えられる。
提案手法をAtari $2600$ベンチマークとMuJoCo物理シミュレータで評価した結果,EauDeQNは性能を高く保ちながら高い空間レベルに達することがわかった。
関連論文リスト
- Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - DenseShift: Towards Accurate and Efficient Low-Bit Power-of-Two
Quantization [27.231327287238102]
本稿では,シフトネットワークの精度を大幅に向上させるDenseShiftネットワークを提案する。
様々なコンピュータビジョンと音声タスクに関する実験により、DenseShiftは既存の低ビット乗算自由ネットワークよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-08-20T15:17:40Z) - Faster Deep Reinforcement Learning with Slower Online Network [90.34900072689618]
DQNとRainbowという2つの人気のあるディープ強化学習アルゴリズムに、オンラインネットワークをターゲットネットワークの近くに留まらせるインセンティブを与えるアップデートを与えました。
その結果、DQN ProとRainbow Proと呼ばれるエージェントは、Atariベンチマークで元のエージェントよりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2021-12-10T22:07:06Z) - Semi-supervised Network Embedding with Differentiable Deep Quantisation [81.49184987430333]
我々はネットワーク埋め込みのための微分可能な量子化法であるd-SNEQを開発した。
d-SNEQは、学習された量子化符号にリッチな高次情報を与えるためにランク損失を組み込む。
トレーニング済みの埋め込みのサイズを大幅に圧縮できるため、ストレージのフットプリントが減少し、検索速度が向上する。
論文 参考訳(メタデータ) (2021-08-20T11:53:05Z) - FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training
with Dynamic Sparsity [74.58777701536668]
我々は、疎い畳み込みニューラルネットワークの性能を、ネットワークの高密度な部分よりも大きなマージンで向上させることができるFreeTicketsの概念を紹介した。
本研究では, ダイナミックな間隔を持つ2つの新しい効率的なアンサンブル手法を提案し, スパーストレーニング過程において, 多数の多様かつ正確なチケットを「無償」で撮影する。
論文 参考訳(メタデータ) (2021-06-28T10:48:20Z) - Layer Folding: Neural Network Depth Reduction using Activation
Linearization [0.0]
現代のデバイスは高いレベルの並列性を示すが、リアルタイムレイテンシはネットワークの深さに大きく依存している。
線形でない活性化を除去できるかどうかを学習し、連続的な線形層を1つに折り畳む方法を提案する。
我々は, CIFAR-10 と CIFAR-100 で事前訓練されたネットワークに適用し, それら全てを同様の深さの浅い形に変換できることを示す。
論文 参考訳(メタデータ) (2021-06-17T08:22:46Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Network Pruning via Annealing and Direct Sparsity Control [4.976007156860966]
本稿では,非構造的および構造的チャネルレベルのプルーニングに適した,新しい効率的なネットワークプルーニング手法を提案する。
提案手法は, 基準とスケジュールに基づいて, ネットワークパラメータやフィルタチャネルを徐々に除去することにより, 空間制約を緩和する。
論文 参考訳(メタデータ) (2020-02-11T10:51:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。