論文の概要: Effective Data Pruning through Score Extrapolation
- arxiv url: http://arxiv.org/abs/2506.09010v1
- Date: Tue, 10 Jun 2025 17:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.97057
- Title: Effective Data Pruning through Score Extrapolation
- Title(参考訳): スコア外挿による効率的なデータ抽出
- Authors: Sebastian Schmidt, Prasanga Dhungel, Christoffer Löffler, Björn Nieth, Stephan Günnemann, Leo Schwinn,
- Abstract要約: 少数のデータのみをトレーニングする必要のある,新たな重要スコア外挿フレームワークを導入する。
このフレームワークでは,この最小限のサブセットから学習したパターンを用いて,データセット全体のサンプル重要度を正確に予測する2つの初期アプローチを提案する。
以上の結果から,スコアの補間は,プルーニングやデータ属性,その他のタスクなど,高価なスコア計算手法をスケールする上で有望な方向であることが示唆された。
- 参考スコア(独自算出の注目度): 40.61665742457229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training advanced machine learning models demands massive datasets, resulting in prohibitive computational costs. To address this challenge, data pruning techniques identify and remove redundant training samples while preserving model performance. Yet, existing pruning techniques predominantly require a full initial training pass to identify removable samples, negating any efficiency benefits for single training runs. To overcome this limitation, we introduce a novel importance score extrapolation framework that requires training on only a small subset of data. We present two initial approaches in this framework - k-nearest neighbors and graph neural networks - to accurately predict sample importance for the entire dataset using patterns learned from this minimal subset. We demonstrate the effectiveness of our approach for 2 state-of-the-art pruning methods (Dynamic Uncertainty and TDDS), 4 different datasets (CIFAR-10, CIFAR-100, Places-365, and ImageNet), and 3 training paradigms (supervised, unsupervised, and adversarial). Our results indicate that score extrapolation is a promising direction to scale expensive score calculation methods, such as pruning, data attribution, or other tasks.
- Abstract(参考訳): 高度な機械学習モデルのトレーニングでは、大量のデータセットが要求されるため、計算コストが禁じられる。
この課題に対処するため、データプルーニング技術は、モデル性能を維持しながら冗長なトレーニングサンプルを特定し、削除する。
しかし、既存の刈り取り技術は、取り外し可能なサンプルを特定するために、主に完全な初期訓練パスを必要とし、単一のトレーニング実行における効率上の利点を否定する。
この制限を克服するために、少数のデータのみをトレーニングする必要がある新しい重要スコア外挿フレームワークを導入する。
このフレームワークでは、この最小限のサブセットから学習したパターンを使用して、データセット全体のサンプル重要度を正確に予測する、k-nearest neighborsとグラフニューラルネットワークという、2つの初期アプローチを提示する。
本研究では,2つの最先端プルーニング手法 (Dynamic Uncertainty and TDDS),4つの異なるデータセット (CIFAR-10, CIFAR-100, Places-365, ImageNet) と3つのトレーニングパラダイム (教師なし, 教師なし, 敵対的) に対するアプローチの有効性を実証する。
以上の結果から,スコアの補間は,プルーニングやデータ属性,その他のタスクなど,高価なスコア計算手法をスケールする上で有望な方向であることが示唆された。
関連論文リスト
- Data Pruning Can Do More: A Comprehensive Data Pruning Approach for Object Re-identification [13.732596789612362]
この研究は、オブジェクトの再識別タスクに適用されたデータプルーニングメソッドの実現可能性について、最初の研究である。
トレーニング中のロジット履歴を十分に活用することにより,本手法は試料の重要度を定量化するための,より正確で包括的な指標を提供する。
提案手法は高効率であり,従来の手法に比べて10倍のコストで重要なスコア推定を行うことができる。
論文 参考訳(メタデータ) (2024-12-13T12:27:47Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - CovarNav: Machine Unlearning via Model Inversion and Covariance
Navigation [11.222501077070765]
機械学習は、訓練されたモデルに対する特定のトレーニングデータポイントの影響を選択的に除去する重要なテクニックとして登場した。
我々は,このことを忘れないように,CovarNavという3段階のプロセスを導入する。
CIFAR-10とVggface2データセット上でCovarNavを厳格に評価する。
論文 参考訳(メタデータ) (2023-11-21T21:19:59Z) - A Data-Centric Approach for Improving Adversarial Training Through the
Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。
SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-01-25T08:13:50Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。
forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。
本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文 参考訳(メタデータ) (2021-11-24T16:47:34Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。