論文の概要: [Reproducibility Report] Rigging the Lottery: Making All Tickets Winners
- arxiv url: http://arxiv.org/abs/2103.15767v2
- Date: Tue, 30 Mar 2021 03:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 12:03:30.799266
- Title: [Reproducibility Report] Rigging the Lottery: Making All Tickets Winners
- Title(参考訳): [再現性レポート]宝くじを引っ掛ける:全てのティケットが勝者になる
- Authors: Varun Sundar, Rajat Vadiraj Dwaraknath
- Abstract要約: スパーストレーニングアルゴリズムである$textitRigL$は、既存の密集型トレーニング技術のパフォーマンスに適合または超過したスパースネットワークを直接トレーニングする、と主張している。
Pytorchのスクラッチから$textitRigL$を実装し、報告された値の0.1%以内でCIFAR-10のパフォーマンスを再現する。
- 参考スコア(独自算出の注目度): 1.6884611234933766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: $\textit{RigL}$, a sparse training algorithm, claims to directly train sparse
networks that match or exceed the performance of existing dense-to-sparse
training techniques (such as pruning) for a fixed parameter count and compute
budget. We implement $\textit{RigL}$ from scratch in Pytorch and reproduce its
performance on CIFAR-10 within 0.1% of the reported value. On both
CIFAR-10/100, the central claim holds -- given a fixed training budget,
$\textit{RigL}$ surpasses existing dynamic-sparse training methods over a range
of target sparsities. By training longer, the performance can match or exceed
iterative pruning, while consuming constant FLOPs throughout training. We also
show that there is little benefit in tuning $\textit{RigL}$'s hyper-parameters
for every sparsity, initialization pair -- the reference choice of
hyperparameters is often close to optimal performance. Going beyond the
original paper, we find that the optimal initialization scheme depends on the
training constraint. While the Erdos-Renyi-Kernel distribution outperforms the
Uniform distribution for a fixed parameter count, for a fixed FLOP count, the
latter performs better. Finally, redistributing layer-wise sparsity while
training can bridge the performance gap between the two initialization schemes,
but increases computational cost.
- Abstract(参考訳): スパーストレーニングアルゴリズムである$\textit{RigL}$は、固定パラメータ数と計算予算に対して、既存の密度とスパーストレーニング技術(プルーニングなど)のパフォーマンスに適合または超過したスパースネットワークを直接トレーニングする。
We implement $\textit{RigL}$ from scratch in Pytorch and repeat its performance on CIFAR-10 in the report value 0.1%。
CIFAR-10/100とCIFAR-10/100では、一定のトレーニング予算が与えられた場合、$\textit{RigL}$は、既存の動的スパーストレーニングメソッドを超える。
より長いトレーニングによって、パフォーマンスは反復的なプルーニングと一致または超えることができ、トレーニングを通じて一定のFLOPを消費する。
また、すべての間隔、初期化ペアに対して$\textit{RigL}$'s hyper-parametersをチューニングするメリットはほとんどないことも示しています -- ハイパーパラメータの参照選択は、しばしば最適なパフォーマンスに近づきます。
元の論文を超えて、最適初期化スキームはトレーニング制約に依存することが判明した。
Erdos-Renyi-Kernel分布は固定パラメータ数に対してUniform分布より優れており、固定FLOP数では後者の方が優れている。
最後に、2つの初期化スキーム間の性能ギャップを補うことができるが、計算コストは増大する。
関連論文リスト
- Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
我々は、高密度事前学習モデルの関数情報を利用して、アクティベーションのアライメントw.r.tを最大化するスパースモデルを得る。
我々は,アクティベーション間のニューロンアライメントを最大化するために,ブロックワイドと行ワイドの間隔比を変更するエンフェップアップアルゴリズムであるtextscNeuroAlを提案する。
提案手法は,4つの異なるLLMファミリーと3つの異なる空間比で検証し,最新の最先端技術よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - DRIVE: Dual Gradient-Based Rapid Iterative Pruning [2.209921757303168]
現代のディープニューラルネットワーク(DNN)は、数百万のパラメータで構成され、トレーニングと推論中にハイパフォーマンスコンピューティングを必要とする。
学習後推論の合理化に焦点をあてた従来の刈り込み手法は, 訓練前の刈り込みによって早期に疎水性を活用する試みが近年行われている。
創発に固有のランダム性に対処するために,初期エポックに対する濃密なトレーニングを活用するDual Gradient-Based Rapid Iterative Pruning (DRIVE)を提案する。
論文 参考訳(メタデータ) (2024-04-01T20:44:28Z) - RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation [30.797422827190278]
本稿ではロバスト適応法 (RoSA) と呼ばれる新しいPEFT法を提案する。
RoSAは、固定された事前トレーニングされた重みのセットの上に、$textitlow-rank$と$textithighly-sparse$コンポーネントをトレーニングする。
また,RoSAがLoRA,純スパース微調整,代替ハイブリット法を同じパラメータ予算で上回ることを示す。
論文 参考訳(メタデータ) (2024-01-09T17:09:01Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Does Continual Learning Equally Forget All Parameters? [55.431048995662714]
連続学習(CL)における分散シフト(タスクやドメインシフトなど)は通常、ニューラルネットワークを壊滅的に忘れてしまう。
ニューラルネットワークのどのモジュールが、CL中のトレーニングダイナミクスを調査することによって忘れやすいかを検討する。
CL中に周期的にトリガされるFPFの1段階ごとのリプレイを完全に取り除き,わずか$k$で置き換える,より効率的でシンプルな手法を提案する。
論文 参考訳(メタデータ) (2023-04-09T04:36:24Z) - Learning a Consensus Sub-Network with Polarization Regularization and
One Pass Training [3.2214522506924093]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10 と CIFAR-100 を用いた結果,分類精度が1% 未満の深層ネットワークにおける接続の50%を除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training
with Dynamic Sparsity [74.58777701536668]
我々は、疎い畳み込みニューラルネットワークの性能を、ネットワークの高密度な部分よりも大きなマージンで向上させることができるFreeTicketsの概念を紹介した。
本研究では, ダイナミックな間隔を持つ2つの新しい効率的なアンサンブル手法を提案し, スパーストレーニング過程において, 多数の多様かつ正確なチケットを「無償」で撮影する。
論文 参考訳(メタデータ) (2021-06-28T10:48:20Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。