論文の概要: Partial Forward Blocking: A Novel Data Pruning Paradigm for Lossless Training Acceleration
- arxiv url: http://arxiv.org/abs/2506.23674v1
- Date: Mon, 30 Jun 2025 09:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.003289
- Title: Partial Forward Blocking: A Novel Data Pruning Paradigm for Lossless Training Acceleration
- Title(参考訳): 部分的フォワードブロッキング:ロスレストレーニング加速のための新しいデータプルーニングパラダイム
- Authors: Dongyue Wu, Zilin Guo, Jialong Zuo, Nong Sang, Changxin Gao,
- Abstract要約: 既存のデータプルーニングアプローチは、これらの重要でないサンプルを取り除き、トレーニングを加速することを目的としている。
本稿では、ロスレストレーニングアクセラレーションのための新しいフレームワークであるPartial Forward Blocking (PFB)を提案する。
PFBは,プルーニング試料の深層フォワードパスとバックプロパゲーションの計算オーバーヘッドを著しく低減する。
ImageNetでは、PFBは0.5%の精度向上と33%のトレーニング時間短縮を実現し、40%のデータをプルーニングした。
- 参考スコア(独自算出の注目度): 32.21701911161334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ever-growing size of training datasets enhances the generalization capability of modern machine learning models but also incurs exorbitant computational costs. Existing data pruning approaches aim to accelerate training by removing those less important samples. However, they often rely on gradients or proxy models, leading to prohibitive additional costs of gradient back-propagation and proxy model training. In this paper, we propose Partial Forward Blocking (PFB), a novel framework for lossless training acceleration. The efficiency of PFB stems from its unique adaptive pruning pipeline: sample importance is assessed based on features extracted from the shallow layers of the target model. Less important samples are then pruned, allowing only the retained ones to proceed with the subsequent forward pass and loss back-propagation. This mechanism significantly reduces the computational overhead of deep-layer forward passes and back-propagation for pruned samples, while also eliminating the need for auxiliary backward computations and proxy model training. Moreover, PFB introduces probability density as an indicator of sample importance. Combined with an adaptive distribution estimation module, our method dynamically prioritizes relatively rare samples, aligning with the constantly evolving training state. Extensive experiments demonstrate the significant superiority of PFB in performance and speed. On ImageNet, PFB achieves a 0.5% accuracy improvement and 33% training time reduction with 40% data pruned.
- Abstract(参考訳): トレーニングデータセットのサイズが拡大するにつれて、現代の機械学習モデルの一般化能力が向上すると同時に、計算コストが増大する。
既存のデータプルーニングアプローチは、これらの重要でないサンプルを取り除き、トレーニングを加速することを目的としている。
しかし、それらはしばしばグラデーションやプロキシモデルに依存し、グラデーションバックプロパゲーションとプロキシモデルのトレーニングの禁止的な追加コストにつながる。
本稿では、ロスレストレーニングアクセラレーションのための新しいフレームワークであるPartial Forward Blocking (PFB)を提案する。
PFBの効率は, ターゲットモデルの浅い層から抽出した特徴に基づいて, 試料の重要度を評価することによる。
その後、あまり重要でないサンプルが刈り取られ、残ったサンプルだけが後続のフォワードパスとロスバックプロパゲーションに進むことができる。
この機構は、深層フォワードパスの計算オーバーヘッドを著しく減らし、プルーニングされたサンプルのバックプロパゲーションを減らし、補助的なバックワード計算やプロキシモデルトレーニングを不要にする。
さらに、PFBはサンプルの重要度を示す指標として確率密度を導入する。
適応分布推定モジュールと組み合わせることで、比較的稀なサンプルを動的に優先順位付けし、常に変化するトレーニング状態と整合する。
大規模な実験は、PFBの性能と速度において有意な優位性を示した。
ImageNetでは、PFBは0.5%の精度向上と33%のトレーニング時間短縮を実現し、40%のデータをプルーニングした。
関連論文リスト
- Instance-dependent Early Stopping [57.912273923450726]
本稿では,早期停止機構をトレーニングセット全体からインスタンスレベルに適応させる,インスタンス依存早期停止(IES)手法を提案する。
IES は、損失値の2階差が 0 付近の小さな範囲に留まっている場合、インスタンスをマスタードとみなす。
IESは、モデルのテスト精度と転送学習性能を維持したり、わずかに改善したりしながら、バックプロパゲーションインスタンスを10%から50%削減することができる。
論文 参考訳(メタデータ) (2025-02-11T13:34:09Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文 参考訳(メタデータ) (2024-11-06T16:33:21Z) - Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。
これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。
4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-02T09:06:04Z) - PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - PaReprop: Fast Parallelized Reversible Backpropagation [6.901732343162485]
非常にメモリ効率のよいトレーニングのためのエキサイティングな新しい方法として、可逆変換器が導入されている。
それらは、バックプロパゲーションフェーズにおけるアクティベーション再計算のさらなる計算オーバーヘッドを伴っている。
本稿では,高速並列化可逆バックプロパゲーションアルゴリズムPaRepropを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:59:32Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。