論文の概要: SubZeroCore: A Submodular Approach with Zero Training for Coreset Selection
- arxiv url: http://arxiv.org/abs/2509.21748v1
- Date: Fri, 26 Sep 2025 01:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.111135
- Title: SubZeroCore: A Submodular Approach with Zero Training for Coreset Selection
- Title(参考訳): SubZeroCore: コアセット選択のためのゼロトレーニングによるサブモジュールアプローチ
- Authors: Brian B. Moser, Tobias C. Nauen, Arundhati S. Shanbhag, Federico Raue, Stanislav Frolov, Joachim Folz, Andreas Dengel,
- Abstract要約: SubZeroCoreは、サブモジュールのカバレッジと密度を単一の統一された目的に統合する、トレーニング不要なコアセット選択方法である。
SubZeroCoreはトレーニングベースのベースラインと一致し、高いプルーニングレートで大幅に性能を向上し、計算オーバーヘッドを劇的に削減することを示す。
- 参考スコア(独自算出の注目度): 9.129619927191973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of coreset selection is to identify representative subsets of datasets for efficient model training. Yet, existing approaches paradoxically require expensive training-based signals, e.g., gradients, decision boundary estimates or forgetting counts, computed over the entire dataset prior to pruning, which undermines their very purpose by requiring training on samples they aim to avoid. We introduce SubZeroCore, a novel, training-free coreset selection method that integrates submodular coverage and density into a single, unified objective. To achieve this, we introduce a sampling strategy based on a closed-form solution to optimally balance these objectives, guided by a single hyperparameter that explicitly controls the desired coverage for local density measures. Despite no training, extensive evaluations show that SubZeroCore matches training-based baselines and significantly outperforms them at high pruning rates, while dramatically reducing computational overhead. SubZeroCore also demonstrates superior robustness to label noise, highlighting its practical effectiveness and scalability for real-world scenarios.
- Abstract(参考訳): コアセット選択の目標は、効率的なモデルトレーニングのためのデータセットの代表的なサブセットを特定することである。
しかし、既存のアプローチでは、プルーニング前にデータセット全体にわたって計算された、勾配、決定境界推定、あるいはカウントの忘れといった、高価なトレーニングベースの信号がパラドックス的に必要になります。
サブモジュールのカバレッジと密度を単一の統一目標に統合する,新しいトレーニング不要なコアセット選択手法であるSubZeroCoreを紹介する。
そこで本研究では, 局所密度測定における所望のカバレッジを明示的に制御する1つのハイパーパラメータによって導かれる, 最適にこれらの目標をバランスさせる, 閉形式解に基づくサンプリング戦略を提案する。
トレーニングがないにもかかわらず、広範な評価では、SubZeroCoreはトレーニングベースのベースラインと一致し、高いプルーニングレートで大幅にパフォーマンスを向上し、計算オーバーヘッドを劇的に削減している。
SubZeroCoreはまた、ノイズのラベル付けに優れたロバスト性を示し、実際のシナリオの実用性とスケーラビリティを強調している。
関連論文リスト
- Non-Uniform Class-Wise Coreset Selection: Characterizing Category Difficulty for Data-Efficient Transfer Learning [19.152700266277247]
Non-Uniform Class-Wise Coreset Selection (NUCS)は、クラスレベルとインスタンスレベルの両方の基準を統合する新しいフレームワークである。
我々の研究は、コアセット選択におけるカテゴリの難しさを特徴づけることの重要性を強調し、転送学習のための堅牢でデータ効率のよいソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-17T15:40:51Z) - Coreset Selection via LLM-based Concept Bottlenecks [6.857632954159568]
Coreset Selection(CS)は、データセット全体の使用に匹敵するモデルパフォーマンスを達成するトレーニングデータセットのサブセットを特定することを目的としている。
本研究は,ダウンストリームモデルに依存しない人間の理解可能なテキスト属性(概念)を用いて,サンプルの難易度を計算するスコアを提案する。
我々のコアセットは高いプルーニングレートでもランダムなサブセットよりも優れており、動的手法を訓練することによって得られるコアセットに匹敵するモデル性能を実現している。
論文 参考訳(メタデータ) (2025-02-23T22:14:42Z) - Zero-Shot Coreset Selection: Efficient Pruning for Unlabeled Data [22.45812577928658]
Coreset選択は、モデルをトレーニングするデータの代表的なサブセットを見つけることを目的としている。
ZCoreは、真実ラベルや候補データによるトレーニングなしに、コアセットを効率的に選択する手法である。
我々は、4つのデータセット上でZCoreを評価し、いくつかの最先端のラベルベースの手法より優れています。
論文 参考訳(メタデータ) (2024-11-22T21:17:49Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Adaptive Second Order Coresets for Data-efficient Machine Learning [5.362258158646462]
データセット上で機械学習モデルをトレーニングすると、かなりの計算コストが発生する。
機械学習のためのトレーニング例のサブセットを抽出するために,AdaCoreを提案する。
論文 参考訳(メタデータ) (2022-07-28T05:43:09Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Weakly Supervised Deep Nuclei Segmentation Using Partial Points
Annotation in Histopathology Images [51.893494939675314]
本稿では,部分点アノテーションに基づく弱教師付きセグメンテーションフレームワークを提案する。
本手法は, 完全教師付き手法や最先端手法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-07-10T15:41:29Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。