論文の概要: Improving Model Classification by Optimizing the Training Dataset
- arxiv url: http://arxiv.org/abs/2507.16729v1
- Date: Tue, 22 Jul 2025 16:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.198858
- Title: Improving Model Classification by Optimizing the Training Dataset
- Title(参考訳): トレーニングデータセットの最適化によるモデル分類の改善
- Authors: Morad Tukan, Loay Mualem, Eitan Netzer, Liran Sigalat,
- Abstract要約: Coresetsはデータ削減に対する原則的なアプローチを提供し、大規模なデータセットでの効率的な学習を可能にする。
下流の分類品質を向上させるために,コアセット生成プロセスを調整するための体系的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.987352341101438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of data-centric AI, the ability to curate high-quality training data is as crucial as model design. Coresets offer a principled approach to data reduction, enabling efficient learning on large datasets through importance sampling. However, conventional sensitivity-based coreset construction often falls short in optimizing for classification performance metrics, e.g., $F1$ score, focusing instead on loss approximation. In this work, we present a systematic framework for tuning the coreset generation process to enhance downstream classification quality. Our method introduces new tunable parameters--including deterministic sampling, class-wise allocation, and refinement via active sampling, beyond traditional sensitivity scores. Through extensive experiments on diverse datasets and classifiers, we demonstrate that tuned coresets can significantly outperform both vanilla coresets and full dataset training on key classification metrics, offering an effective path towards better and more efficient model training.
- Abstract(参考訳): データ中心AIの時代において、高品質なトレーニングデータをキュレートする能力はモデル設計と同じくらい重要である。
Coresetsはデータリダクションに対する原則的なアプローチを提供し、重要サンプリングによる大規模データセットの効率的な学習を可能にする。
しかし、従来の感度ベースのコアセット構成は、例えば、$F1$スコアなどの分類性能指標を最適化するのに不足することが多く、損失近似に重点を置いている。
本稿では,下流の分類品質を向上させるために,コアセット生成プロセスを調整するための体系的なフレームワークを提案する。
提案手法では, 従来の感度スコアを超えて, 決定論的サンプリング, クラスワイドアロケーション, アクティブサンプリングによる改良を含む, 新たな調整可能なパラメータを導入している。
多様なデータセットと分類器に関する広範な実験を通じて、調整されたコアセットは、バニラコアセットと主要な分類指標に関する完全なデータセットトレーニングの両方を著しく上回り、より良い、より効率的なモデルトレーニングへの効果的なパスを提供することを示した。
関連論文リスト
- Non-Uniform Class-Wise Coreset Selection: Characterizing Category Difficulty for Data-Efficient Transfer Learning [19.152700266277247]
Non-Uniform Class-Wise Coreset Selection (NUCS)は、クラスレベルとインスタンスレベルの両方の基準を統合する新しいフレームワークである。
我々の研究は、コアセット選択におけるカテゴリの難しさを特徴づけることの重要性を強調し、転送学習のための堅牢でデータ効率のよいソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-17T15:40:51Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - DRoP: Distributionally Robust Data Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - An Analysis of Initial Training Strategies for Exemplar-Free
Class-Incremental Learning [36.619804184427245]
CIL(Class-Incremental Learning)は、データストリームから分類モデルを構築することを目的としている。
破滅的な忘れ物のため、過去のクラスの例を保存できない場合、CILは特に困難である。
大量のデータに対する自己管理的な方法で事前訓練されたモデルの使用は、最近勢いを増している。
論文 参考訳(メタデータ) (2023-08-22T14:06:40Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。