論文の概要: Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework
for Enhancing Model Performance and Efficiency
- arxiv url: http://arxiv.org/abs/2312.05599v1
- Date: Sat, 9 Dec 2023 16:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:45:56.721350
- Title: Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework
for Enhancing Model Performance and Efficiency
- Title(参考訳): すべてのデータが問題ではない:モデルの性能と効率を向上させるためのエンドツーエンドの適応データセットプラニングフレームワーク
- Authors: Suorong Yang, Hongchao Yang, Suhan Guo, Furao Shen, Jian Zhao
- Abstract要約: 本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。
AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。
トレーニングデータの最大10~30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
- 参考スコア(独自算出の注目度): 9.460023981858319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep neural networks have demonstrated remarkable performance across
various tasks, they typically require massive training data. Due to the
presence of redundancies and biases in real-world datasets, not all data in the
training dataset contributes to the model performance. To address this issue,
dataset pruning techniques have been introduced to enhance model performance
and efficiency by eliminating redundant training samples and reducing
computational and memory overhead. However, previous works most rely on
manually crafted scalar scores, limiting their practical performance and
scalability across diverse deep networks and datasets. In this paper, we
propose AdaPruner, an end-to-end Adaptive DAtaset PRUNing framEwoRk. AdaPruner
can perform effective dataset pruning without the need for explicitly defined
metrics. Our framework jointly prunes training data and fine-tunes models with
task-specific optimization objectives. AdaPruner leverages (1) An adaptive
dataset pruning (ADP) module, which iteratively prunes redundant samples to an
expected pruning ratio; and (2) A pruning performance controller (PPC) module,
which optimizes the model performance for accurate pruning. Therefore,
AdaPruner exhibits high scalability and compatibility across various datasets
and deep networks, yielding improved dataset distribution and enhanced model
performance. AdaPruner can still significantly enhance model performance even
after pruning up to 10-30\% of the training data. Notably, these improvements
are accompanied by substantial savings in memory and computation costs.
Qualitative and quantitative experiments suggest that AdaPruner outperforms
other state-of-the-art dataset pruning methods by a large margin.
- Abstract(参考訳): ディープニューラルネットワークは様々なタスクで顕著なパフォーマンスを示しているが、通常は大量のトレーニングデータを必要とする。
実世界のデータセットに冗長性とバイアスが存在するため、トレーニングデータセット内のすべてのデータがモデルパフォーマンスに寄与するわけではない。
この問題に対処するために、冗長なトレーニングサンプルを排除し、計算とメモリオーバーヘッドを低減し、モデル性能と効率を向上させるためにデータセットプルーニング技術が導入されている。
しかしながら、以前の作業は手作業によるスカラースコアに依存しており、さまざまなディープネットワークやデータセットにわたる実用的パフォーマンスとスケーラビリティを制限している。
本稿では,エンドツーエンドのアダプティブデータセットpruningフレームワークであるadaprunerを提案する。
AdaPrunerは、明示的に定義されたメトリクスを必要とせずに、効果的なデータセットプルーニングを実行することができる。
本フレームワークは,タスク固有の最適化目標を持つ訓練データと微調整モデルを共同で作成する。
AdaPrunerは,(1)適応型データセットプルーニング(ADP)モジュールを利用して,冗長なサンプルを予測プルーニング比率に反復的にプルーニングし,(2)正確なプルーニングのためにモデル性能を最適化するプルーニングパフォーマンスコントローラ(PPC)モジュールを利用する。
したがって、adaprunerは、さまざまなデータセットとディープネットワーク間で高いスケーラビリティと互換性を示し、データセットの分散とモデルパフォーマンスの向上をもたらす。
adaprunerは、トレーニングデータの最大10-30\%をプラニングした後でも、モデルパフォーマンスを著しく向上することができる。
特に、これらの改善はメモリと計算コストの大幅な削減を伴う。
定性的かつ定量的な実験は、AdaPrunerが他の最先端のデータセットプルーニング手法よりも大きなマージンで優れていることを示唆している。
関連論文リスト
- A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文 参考訳(メタデータ) (2024-11-23T17:35:23Z) - ImageNet-RIB Benchmark: Large Pre-Training Datasets Don't Guarantee Robustness after Fine-Tuning [30.422932548359952]
我々は、新しい堅牢な微調整ベンチマーク ImageNet-RIB (Robustness Inheritance Benchmark) を導入する。
ベンチマークは関連するが、個別の(ダウンストリーム)タスクで構成されている。
連続学習法であるEWCとLwFは微調整後の堅牢性を維持していることがわかった。
論文 参考訳(メタデータ) (2024-10-28T22:33:22Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。
これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。
4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-02T09:06:04Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Recommendation Unlearning via Influence Function [42.4931807753579]
本稿では,新しいインフルエンス関数に基づく推薦アンラーニング(IFRU, Recommendation Unlearning)フレームワークを提案する。
IFRUは、フルリトレーニングに匹敵するレコメンデーションパフォーマンスを持つリトレーニングベースの手法と比較して、250倍以上のアクセラレーションを実現している。
論文 参考訳(メタデータ) (2023-07-05T09:42:51Z) - Building Resilience to Out-of-Distribution Visual Data via Input
Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。
自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。
提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文 参考訳(メタデータ) (2022-11-29T14:06:35Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。