論文の概要: Sign-In to the Lottery: Reparameterizing Sparse Training From Scratch
- arxiv url: http://arxiv.org/abs/2504.12801v1
- Date: Thu, 17 Apr 2025 10:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:18.507159
- Title: Sign-In to the Lottery: Reparameterizing Sparse Training From Scratch
- Title(参考訳): 宝くじにサインイン:スクラッチによるスパーストレーニングの再パラメータ化
- Authors: Advait Gadhikar, Tom Jacobs, Chao Zhou, Rebekka Burkholz,
- Abstract要約: スクラッチ(PaI)からのスパースニューラルネットワークのトレーニングと密度とスパーストレーニングの間のパフォーマンスギャップは、効率的なディープラーニングのための主要な障害となる。
本稿では,符号フリップを確実に誘導する動的reパラメタライゼーションを用いたSign-Inを提案する。
このようなサインフリップは、厳密でスパースなトレーニングが達成できるものと相補的なものです。
- 参考スコア(独自算出の注目度): 16.13381473792083
- License:
- Abstract: The performance gap between training sparse neural networks from scratch (PaI) and dense-to-sparse training presents a major roadblock for efficient deep learning. According to the Lottery Ticket Hypothesis, PaI hinges on finding a problem specific parameter initialization. As we show, to this end, determining correct parameter signs is sufficient. Yet, they remain elusive to PaI. To address this issue, we propose Sign-In, which employs a dynamic reparameterization that provably induces sign flips. Such sign flips are complementary to the ones that dense-to-sparse training can accomplish, rendering Sign-In as an orthogonal method. While our experiments and theory suggest performance improvements of PaI, they also carve out the main open challenge to close the gap between PaI and dense-to-sparse training.
- Abstract(参考訳): スクラッチ(PaI)からのスパースニューラルネットワークのトレーニングと濃密からスパーストレーニングの間のパフォーマンスギャップは、効率的なディープラーニングのための主要な障害となる。
Lottery Ticket仮説によると、PaIは問題固有のパラメータの初期化を見つけることに集中している。
以下に示すように、正しいパラメータの符号を決定するだけで十分である。
しかし、彼らはいまだにPaIに懐疑的だ。
この問題に対処するために,手話のフリップを確実に誘導する動的パラメータ化を用いた手話入力を提案する。
このようなシグネチャフリップは、厳密でスパースなトレーニングが達成できるものと相補的であり、シグネチャインを直交法として表現する。
実験と理論はPaIの性能向上を示唆するが,PaIと深度とスパーストレーニングのギャップを埋める上での,大きな課題も浮き彫りにしている。
関連論文リスト
- Playing the Lottery With Concave Regularizers for Sparse Trainable Neural Networks [10.48836159692231]
我々は宝くじを弾くための新しい方法のクラスを提案する。
鍵となる点は、緩和された二元マスクの空間性を促進するために凹凸正則化を使うことである。
提案手法は,最先端のアルゴリズムの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-01-19T18:05:13Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Learning effective pruning at initialization from iterative pruning [15.842658282636876]
本稿では、トレーニングコストを削減するために、エンドツーエンドのニューラルネットワークに基づくPaI手法を提案する。
提案手法は, 既存手法よりも高スパース性設定で優れる。
ニューラルネットワークを用いた最初のPaI手法として、このアプローチに影響を与える要因を検証するために広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-27T03:17:52Z) - Masks, Signs, And Learning Rate Rewinding [21.245849787139655]
反復的マグニチュード・プルーニング(IMP)の強力な変種としてLRR(Learning Rate Rewinding)が確立されている。
マスク学習とパラメータ最適化を両立させる実験を行った。
この仮説を支持するために、LRRがIMPよりも多くのケースで成功することを単純化された単一の隠れニューロン設定で証明する。
論文 参考訳(メタデータ) (2024-02-29T15:32:02Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - HaLP: Hallucinating Latent Positives for Skeleton-based Self-Supervised
Learning of Actions [69.14257241250046]
ラベルなしの骨格に基づく行動認識のためのモデル学習のための新しいコントラスト学習手法を提案する。
私たちの重要な貢献は、単純なモジュールであるHalucinate Latent Positivesのコントラスト学習へのHalucinate HaLPです。
実験を通して、標準のコントラスト学習フレームワーク内でこれらの生成した正を使用すれば、一貫した改善がもたらされることを示す。
論文 参考訳(メタデータ) (2023-04-01T21:09:43Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Parametric Contrastive Learning [65.70554597097248]
本研究では,長期学習のためのパラメトリックコントラスト学習(PaCo)を提案する。
PaCoは、同じクラスのクローズのサンプルをプッシュする強度を適応的に増強することができる。
長い尾を持つCIFAR、ImageNet、Places、iNaturalist 2018の実験は、長い尾を持つ認識のための新しい最先端技術を示している。
論文 参考訳(メタデータ) (2021-07-26T08:37:23Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。