論文の概要: EMP: Enhance Memory in Data Pruning
- arxiv url: http://arxiv.org/abs/2408.16031v1
- Date: Wed, 28 Aug 2024 10:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 17:54:29.799273
- Title: EMP: Enhance Memory in Data Pruning
- Title(参考訳): EMP: データプルーニングにおけるメモリの強化
- Authors: Jinying Xiao, Ping Li, Jie Nie, Zhe Tang,
- Abstract要約: 近年,大規模言語と視覚モデルの性能は高いが,事前学習と微調整のコストが高いため,データセットプルーニングによる学習の高速化に向けた研究が進んでいる。
従来の手法では、サンプルの損失を評価基準として用い、トレーニングに最も「難しい」サンプルを選択することを目的としていた。
本稿では,データのメモリを増大させ,その性能を向上させることにより,高プルーニングレート下でのメモリ不足問題に対処するエンハンスメモリ・プルーニング(EMP)を提案する。
- 参考スコア(独自算出の注目度): 18.535687216213628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language and vision models have shown strong performance, but due to high pre-training and fine-tuning costs, research has shifted towards faster training via dataset pruning. Previous methods used sample loss as an evaluation criterion, aiming to select the most "difficult" samples for training. However, when the pruning rate increases, the number of times each sample is trained becomes more evenly distributed, which causes many critical or general samples to not be effectively fitted. We refer to this as Low-Frequency Learning (LFL). In other words, LFL prevents the model from remembering most samples. In our work, we decompose the scoring function of LFL, provide a theoretical explanation for the inefficiency of LFL, and propose adding a memory term to the scoring function to enhance the model's memory capability, along with an approximation of this memory term. Similarly, we explore memory in Self-Supervised Learning (SSL), marking the first discussion on SSL memory. Using contrastive learning, we derive the memory term both theoretically and experimentally. Finally, we propose Enhance Memory Pruning (EMP), which addresses the issue of insufficient memory under high pruning rates by enhancing the model's memory of data, thereby improving its performance. We evaluated the performance of EMP in tasks such as image classification, natural language understanding, and model pre-training. The results show that EMP can improve model performance under extreme pruning rates. For example, in the CIFAR100-ResNet50 pre-training task, with 70\% pruning, EMP outperforms current methods by 2.2\%.
- Abstract(参考訳): 近年、大規模言語と視覚モデルの性能は高いが、事前学習と微調整のコストが高いため、データセットのプルーニングを通じてより高速なトレーニングに移行している。
従来の手法では、サンプルの損失を評価基準として用い、トレーニングに最も「難しい」サンプルを選択することを目的としていた。
しかし、刈り取り速度が上がると、各サンプルの訓練回数が均等に分散し、多くの臨界試料や一般試料が効果的に適合しない。
これを低周波学習(LFL)と呼ぶ。
言い換えれば、LFLはモデルがほとんどのサンプルを記憶することを防ぐ。
本研究では,LFLのスコアリング関数を分解し,LFLの非効率性を理論的に説明し,このメモリ項を近似したモデル記憶能力を高めるために,スコアリング関数にメモリ項を追加することを提案する。
同様に、SSL(Self-Supervised Learning)におけるメモリについて検討し、SSLメモリに関する最初の議論を示す。
コントラスト学習を用いて理論的・実験的に記憶用語を導出する。
最後に,EMP(Enhance Memory Pruning, Enhance Memory Pruning, Enhance Memory Pruning)を提案する。
画像分類,自然言語理解,モデル事前学習などのタスクにおけるEMPの性能を評価した。
以上の結果から,EMPは極端破砕速度でモデル性能を向上させることができることがわかった。
例えば、CIFAR100-ResNet50の事前トレーニングタスクでは、70 %のプルーニングで、EMPは現在のメソッドを2.2 %上回っている。
関連論文リスト
- Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。
提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。
さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文 参考訳(メタデータ) (2024-06-24T03:09:15Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - EMO: Episodic Memory Optimization for Few-Shot Meta-Learning [69.50380510879697]
メタ学習のためのエピソード記憶最適化は、EMOと呼ばれ、脳の記憶から過去の学習経験を思い出す人間の能力にインスパイアされている。
EMOは、限られた数の例によって提供される勾配が非形式的である場合でも、パラメータを正しい方向に更新する。
EMOは、ほとんど数ショットの分類ベンチマークでうまくスケールし、最適化ベースのメタラーニング手法の性能を改善している。
論文 参考訳(メタデータ) (2023-06-08T13:39:08Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Neural Transducer Training: Reduced Memory Consumption with Sample-wise
Computation [5.355990925686149]
本稿では,トランスデューサの損失と勾配をサンプル毎に計算するメモリ効率のトレーニング手法を提案する。
提案手法は,メモリ使用量を大幅に削減し,デフォルトのバッチ処理に比べて競合速度で動作可能であることを示す。
その結果,1024のバッチサイズと40秒のオーディオ長のトランスデューサ損失と勾配を,わずか6GBのメモリで計算することができた。
論文 参考訳(メタデータ) (2022-11-29T14:57:23Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Large Product Key Memory for Pretrained Language Models [12.932177565788974]
製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。
近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
論文 参考訳(メタデータ) (2020-10-08T10:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。