論文の概要: Non-Uniform Class-Wise Coreset Selection: Characterizing Category Difficulty for Data-Efficient Transfer Learning
- arxiv url: http://arxiv.org/abs/2504.13234v1
- Date: Thu, 17 Apr 2025 15:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:45:19.411857
- Title: Non-Uniform Class-Wise Coreset Selection: Characterizing Category Difficulty for Data-Efficient Transfer Learning
- Title(参考訳): 非一様クラスワイズコアセット選択:データ効率のよい伝達学習におけるカテゴリー難易度の特徴付け
- Authors: Hanyu Zhang, Zhen Xing, Wenxuan Yang, Chenxi Ma, Weimin Tan, Bo Yan,
- Abstract要約: Non-Uniform Class-Wise Coreset Selection (NUCS)は、クラスレベルとインスタンスレベルの両方の基準を統合する新しいフレームワークである。
我々の研究は、コアセット選択におけるカテゴリの難しさを特徴づけることの重要性を強調し、転送学習のための堅牢でデータ効率のよいソリューションを提供する。
- 参考スコア(独自算出の注目度): 19.152700266277247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As transfer learning models and datasets grow larger, efficient adaptation and storage optimization have become critical needs. Coreset selection addresses these challenges by identifying and retaining the most informative samples, constructing a compact subset for target domain training. However, current methods primarily rely on instance-level difficulty assessments, overlooking crucial category-level characteristics and consequently under-representing minority classes. To overcome this limitation, we propose Non-Uniform Class-Wise Coreset Selection (NUCS), a novel framework that integrates both class-level and instance-level criteria. NUCS automatically allocates data selection budgets for each class based on intrinsic category difficulty and adaptively selects samples within optimal difficulty ranges. By explicitly incorporating category-specific insights, our approach achieves a more balanced and representative coreset, addressing key shortcomings of prior methods. Comprehensive theoretical analysis validates the rationale behind adaptive budget allocation and sample selection, while extensive experiments across 14 diverse datasets and model architectures demonstrate NUCS's consistent improvements over state-of-the-art methods, achieving superior accuracy and computational efficiency. Notably, on CIFAR100 and Food101, NUCS matches full-data training accuracy while retaining just 30% of samples and reducing computation time by 60%. Our work highlights the importance of characterizing category difficulty in coreset selection, offering a robust and data-efficient solution for transfer learning.
- Abstract(参考訳): 転送学習モデルとデータセットが大きくなるにつれて、効率的な適応とストレージ最適化が重要になっている。
コアセットの選択は、最も有益なサンプルを特定し、保持し、ターゲットドメイントレーニングのためのコンパクトなサブセットを構築することで、これらの課題に対処する。
しかし、現在の手法は主にインスタンスレベルの難易度評価に依存しており、重要なカテゴリレベルの特徴を見落とし、結果として少数派を過小評価している。
この制限を克服するために、クラスレベルとインスタンスレベルの両方の基準を統合する新しいフレームワークであるNon-Uniform Class-Wise Coreset Selection (NUCS)を提案する。
NUCSは、固有のカテゴリの難易度に基づいて、各クラスのデータ選択予算を自動的に割り当て、最適な難易度の範囲内でサンプルを適応的に選択する。
カテゴリ固有の洞察を明示的に取り入れることで,従来の手法の重要な欠点に対処し,よりバランスの取れた,代表的なコアセットを実現する。
包括的理論的分析は、適応的な予算配分とサンプル選択の理論的根拠を検証し、14の多様なデータセットとモデルアーキテクチャにわたる広範な実験は、NUCSが最先端の手法よりも一貫した改善を行い、精度と計算効率を向上することを示した。
特に、CIFAR100とFood101では、NUCSはサンプルの30%しか保持せず、計算時間を60%削減している。
我々の研究は、コアセット選択におけるカテゴリの難しさを特徴づけることの重要性を強調し、転送学習のための堅牢でデータ効率のよいソリューションを提供する。
関連論文リスト
- Enhancing Multimodal In-Context Learning for Image Classification through Coreset Optimization [45.48642232138223]
In-context Learning (ICL)により、LVLM(Large Vision-Language Models)はパラメータを更新せずに新しいタスクに適応できる。
本稿では,キーベースコアセット最適化(KeCO)を提案する。
KeCOは画像分類タスクのICL性能を効果的に向上し、平均20%以上の改善を実現している。
論文 参考訳(メタデータ) (2025-04-19T06:26:23Z) - Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。
本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。
提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-22T07:08:29Z) - An Adaptive Cost-Sensitive Learning and Recursive Denoising Framework for Imbalanced SVM Classification [12.986535715303331]
カテゴリー不均衡は、分類分野において最も人気があり重要な問題の一つである。
適応的なコスト感度と再帰に基づく頑健な学習アルゴリズムを提案する。
実験の結果,提案手法は従来の精度,G平均,リコール,F1スコアの手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-03-13T09:43:14Z) - Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Probabilistic Bilevel Coreset Selection [24.874967723659022]
本稿では,各トレーニングサンプルの確率的重みを学習することにより,コアセット選択の連続確率的2レベル定式化を提案する。
暗黙的な微分の問題を伴わずに、偏りのない政策勾配を経由し、二段階最適化問題に対する効率的な解法を開発する。
論文 参考訳(メタデータ) (2023-01-24T09:37:00Z) - Classifier Transfer with Data Selection Strategies for Online Support
Vector Machine Classification with Class Imbalance [1.2599533416395767]
我々は、格納されたトレーニングデータのサイズを制限するデータ選択戦略に焦点を当てる。
データ選択基準の正しい組み合わせを用いることで、分類器を適応させ、性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-08-10T02:36:20Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。