論文の概要: Dataset Pruning: Reducing Training Data by Examining Generalization
Influence
- arxiv url: http://arxiv.org/abs/2205.09329v1
- Date: Thu, 19 May 2022 05:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 13:52:48.492605
- Title: Dataset Pruning: Reducing Training Data by Examining Generalization
Influence
- Title(参考訳): データセット・プルーニング:一般化の影響評価によるトレーニングデータの削減
- Authors: Shuo Yang, Zeke Xie, Hanyu Peng, Min Xu, Mingming Sun, Ping Li
- Abstract要約: すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
- 参考スコア(独自算出の注目度): 30.30255670341501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The great success of deep learning heavily relies on increasingly larger
training data, which comes at a price of huge computational and infrastructural
costs. This poses crucial questions that, do all training data contribute to
model's performance? How much does each individual training sample or a
sub-training-set affect the model's generalization, and how to construct a
smallest subset from the entire training data as a proxy training set without
significantly sacrificing the model's performance? To answer these, we propose
dataset pruning, an optimization-based sample selection method that can (1)
examine the influence of removing a particular set of training samples on
model's generalization ability with theoretical guarantee, and (2) construct a
smallest subset of training data that yields strictly constrained
generalization gap. The empirically observed generalization gap of dataset
pruning is substantially consistent with our theoretical expectations.
Furthermore, the proposed method prunes 40% training examples on the CIFAR-10
dataset, halves the convergence time with only 1.3% test accuracy decrease,
which is superior to previous score-based sample selection methods.
- Abstract(参考訳): ディープラーニングの大きな成功は、ますます大きなトレーニングデータに大きく依存しています。
すべてのトレーニングデータは、モデルのパフォーマンスに寄与するのか?
個々のトレーニングサンプルやサブトレーニングセットがモデルの一般化にどの程度影響し、モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとしてトレーニングデータ全体から最小限のサブセットを構築するにはどうすればよいのか?
そこで本研究では,(1)特定のトレーニングサンプルの集合がモデル一般化能力に与える影響を理論的保証付きで検証し,(2)厳密な制約付き一般化ギャップを生じるトレーニングデータの最小サブセットを構築する,最適化に基づくサンプル選択手法であるデータセットプルーニングを提案する。
実験的に観察されたデータセットプルーニングの一般化ギャップは、我々の理論的期待とほぼ一致している。
さらに,提案手法は,CIFAR-10データセット上で40%のトレーニング例を抽出し,従来のスコアベースサンプル選択法よりも優れた1.3%の精度で収束時間を短縮する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration [11.102950630209879]
アウト・オブ・ディストリビューション(OOD)の一般化タスクでは、微調整された事前学習モデルが一般的な戦略となっている。
本研究では,事前学習モデルサイズ,事前学習データセットサイズ,トレーニング戦略が一般化と不確実性校正にどのように影響するかを検討した。
論文 参考訳(メタデータ) (2023-07-17T01:27:10Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。