論文の概要: Batch Loss Score for Dynamic Data Pruning
- arxiv url: http://arxiv.org/abs/2604.04681v1
- Date: Mon, 06 Apr 2026 13:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.207763
- Title: Batch Loss Score for Dynamic Data Pruning
- Title(参考訳): 動的データ処理のためのバッチ損失スコア
- Authors: Qing Zhou, Bingxuan Zhao, Tao Yang, Hongyuan Zhang, Junyu Gao, Qi Wang,
- Abstract要約: Batch Loss Score (BLS) は、個々のサンプルにスコアを割り当てるために、容易に利用可能なバッチ損失の指数移動平均(EMA)を使用する計算的に効率的な代替手段である。
BLSは、個々のサンプルの損失に対する滑らかで永続的な寄与を近似し、BLSをサンプルの重要性のプロキシとして理論的根拠を与える。
- 参考スコア(独自算出の注目度): 30.39085035238577
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dynamic data pruning accelerates deep learning by selectively omitting less informative samples during training. While per-sample loss is a common importance metric, obtaining it can be challenging or infeasible for complex models or loss functions, often requiring significant implementation effort. This work proposes the Batch Loss Score (BLS), a computationally efficient alternative using an Exponential Moving Average (EMA) of readily available batch losses to assign scores to individual samples. We frame the batch loss, from the perspective of a single sample, as a noisy measurement of its scaled individual loss, with noise originating from stochastic batch composition. It is formally shown that the EMA mechanism functions as a first-order low-pass filter, attenuating high-frequency batch composition noise. This yields a score approximating the smoothed and persistent contribution of the individual sample to the loss, providing a theoretical grounding for BLS as a proxy for sample importance. BLS demonstrates remarkable code integration simplicity (\textbf{three-line injection}) and readily adapts existing per-sample loss-based methods (\textbf{one-line proxy}). Its effectiveness is demonstrated by enhancing two such methods to losslessly prune \textbf{20\%-50\%} of samples across \textit{14 datasets}, \textit{11 tasks} and \textit{18 models}, highlighting its utility and broad applicability, especially for complex scenarios where per-sample loss is difficult to access. Code is available at https://github.com/mrazhou/BLS.
- Abstract(参考訳): 動的データプルーニングは、トレーニング中に少ない情報サンプルを選択的に省略することで、ディープラーニングを加速する。
サンプル単位の損失は、一般的な重要な指標であるが、複雑なモデルや損失関数では、それを得るのが困難または不可能であり、多くの場合、実装にかなりの労力を要する。
本研究は,各サンプルにスコアを割り当てるために利用可能なバッチ損失の指数移動平均値(EMA)を用いて,計算効率のよいBatch Loss Score(BLS)を提案する。
本研究では, 単一サンプルの観点から, 確率的バッチ合成から生じるノイズを伴って, 個別の損失の規模を計測するノイズとして, バッチ損失を考察した。
EMA機構は1次低域通過フィルタとして機能し、高周波バッチ合成ノイズを減衰させる。
これにより、個々のサンプルが損失に対して滑らかで持続的な寄与を近似するスコアが得られ、BLSがサンプルの重要性を代行する理論的な根拠となる。
BLSはコード統合の単純さ(\textbf{ Three-line Injection})を示し、既存のサンプル単位の損失ベースのメソッド(\textbf{one-line proxy})に容易に適応します。
その有効性は、特にサンプル単位の損失がアクセスし難い複雑なシナリオにおいて、その実用性と幅広い適用性を強調するために、2つのメソッドを損失なくPrune \textbf{20\%-50\%} のサンプルを \textit{14 datasets} 、 \textit{11 tasks} 、 \textit{18 models} に拡張することで示される。
コードはhttps://github.com/mrazhou/BLS.comで入手できる。
関連論文リスト
- Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Robust Time Series Forecasting with Non-Heavy-Tailed Gaussian Loss-Weighted Sampler [1.8816077341295625]
近年のリサンプリング手法は, ランニング損失に基づいてサンプルを再重み付けすることで, トレーニング効率を向上させることを目的としている。
本稿では,ガウスの損失重みとガウスの分布重みとを乗算するガウスの損失重み付きサンプリング手法を提案する。
これは、平均的な損失に近いものを選びながら、非常に低い、または非常に高い損失でサンプルを選択する確率を下げる。
論文 参考訳(メタデータ) (2024-06-19T22:28:18Z) - PLReMix: Combating Noisy Labels with Pseudo-Label Relaxed Contrastive Representation Learning [7.556169113399857]
Pseudo-Label Relaxed (PLR) のコントラスト損失を導入することで、エンドツーエンドの textbfPLReMix フレームワークを提案する。
提案したPLR損失はプラガブルであり,他のLNL手法に統合し,その性能改善を観察した。
論文 参考訳(メタデータ) (2024-02-27T15:22:20Z) - Sample Weight Estimation Using Meta-Updates for Online Continual
Learning [7.832189413179361]
OMSI(Online Meta-learning for Sample Importance)戦略は、オンラインCLストリームにおけるミニバッチのサンプル重量を近似する。
OMSIは、制御されたノイズラベル付きデータストリームにおける学習と保持の精度を向上させる。
論文 参考訳(メタデータ) (2024-01-29T09:04:45Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Regroup Median Loss for Combating Label Noise [19.51996047333779]
深層モデルトレーニングには、注釈付きデータの大規模なデータセットが必要である。
多数のサンプルを注釈付けすることが難しいため、誤ったアノテーションによるラベルノイズは避けられない。
ノイズのあるサンプルを選択する確率を低減し,ノイズの多いサンプルの損失を正すために,Regroup Median Loss (RML)を提案する。
論文 参考訳(メタデータ) (2023-12-11T10:19:55Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。