論文の概要: A Coreset Selection of Coreset Selection Literature: Introduction and Recent Advances
- arxiv url: http://arxiv.org/abs/2505.17799v1
- Date: Fri, 23 May 2025 12:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.0545
- Title: A Coreset Selection of Coreset Selection Literature: Introduction and Recent Advances
- Title(参考訳): コアセット選択文学 : 序論と最近の進歩
- Authors: Brian B. Moser, Arundhati S. Shanbhag, Stanislav Frolov, Federico Raue, Joachim Folz, Andreas Dengel,
- Abstract要約: コアセットの選択は、機械学習に不可欠なパターンを保存する大規模なデータセットの、小さくて代表的なサブセットを見つけるという課題を目標としている。
この調査は、コアセット研究の3つの主要な行を単一の分類にまとめることで、より包括的な見解を示す。
提案するサブフィールドは,部分モジュラー定式化や双レベル最適化,ラベルなしデータセットの擬似ラベル化の最近の進歩など,既存の研究によって見落とされがちである。
- 参考スコア(独自算出の注目度): 8.319613769928331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coreset selection targets the challenge of finding a small, representative subset of a large dataset that preserves essential patterns for effective machine learning. Although several surveys have examined data reduction strategies before, most focus narrowly on either classical geometry-based methods or active learning techniques. In contrast, this survey presents a more comprehensive view by unifying three major lines of coreset research, namely, training-free, training-oriented, and label-free approaches, into a single taxonomy. We present subfields often overlooked by existing work, including submodular formulations, bilevel optimization, and recent progress in pseudo-labeling for unlabeled datasets. Additionally, we examine how pruning strategies influence generalization and neural scaling laws, offering new insights that are absent from prior reviews. Finally, we compare these methods under varying computational, robustness, and performance demands and highlight open challenges, such as robustness, outlier filtering, and adapting coreset selection to foundation models, for future research.
- Abstract(参考訳): コアセットの選択は、機械学習に不可欠なパターンを保存する大規模なデータセットの、小さくて代表的なサブセットを見つけるという課題を目標としている。
これまでいくつかの調査でデータ削減戦略が検討されてきたが、ほとんどは古典幾何学的手法や能動的学習技術に焦点を絞っている。
対照的に、この調査は、コアセット研究の3つの主要なライン、すなわち、トレーニングなし、トレーニング指向、ラベルなしのアプローチを単一の分類にまとめることで、より包括的な見解を示す。
提案するサブフィールドは,部分モジュラー定式化や双レベル最適化,ラベルなしデータセットの擬似ラベル化の最近の進歩など,既存の研究によって見落とされがちである。
さらに,プルーニング戦略が一般化とニューラルスケーリングの法則にどのように影響するかを検討した。
最後に,これらの手法を様々な計算,ロバスト性,性能要求の下で比較し,ロバスト性,外乱フィルタリング,基本モデルへのコアセット選択などのオープンな課題を今後の研究のために強調する。
関連論文リスト
- Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。
既存の調査では、微調整フェーズの詳細な調査を見落としている。
特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文 参考訳(メタデータ) (2024-06-20T08:58:58Z) - Foundation Model Makes Clustering A Better Initialization For Cold-Start Active Learning [5.609241010973952]
コールドスタート能動学習のためのサンプルを選択するために,基礎モデルとクラスタリング手法を統合することを提案する。
ファンデーションモデルは、自己管理パラダイムによってトレーニングされた大量のデータセットを指す。
総合的な比較のために、埋め込みを取得するための古典的なImageNet教師付きモデルを含む。
論文 参考訳(メタデータ) (2024-02-04T16:27:37Z) - Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and
Future Directions [48.97008907275482]
クラスタリングは、文献で広く研究されている基本的な機械学習タスクである。
ディープクラスタリング(Deep Clustering)、すなわち表現学習とクラスタリングを共同で最適化する手法が提案され、コミュニティで注目を集めている。
深層クラスタリングの本質的なコンポーネントを要約し、深層クラスタリングと深層クラスタリングの相互作用を設計する方法によって既存の手法を分類する。
論文 参考訳(メタデータ) (2022-06-15T15:05:13Z) - DeepCore: A Comprehensive Library for Coreset Selection in Deep Learning [3.897574108827803]
CIFAR10とImageNetデータセットのコアセット選択手法に関する実証的研究を行った。
特定の実験環境では性能が向上するメソッドもあるが、ランダム選択は依然として強力なベースラインである。
論文 参考訳(メタデータ) (2022-04-18T18:14:30Z) - A Simple Yet Effective Pretraining Strategy for Graph Few-shot Learning [38.66690010054665]
本稿では,グラフ数ショット学習のための新しいパラダイムとして,シンプルなトランスダクティブな微調整型フレームワークを提案する。
事前学習のために,数発のノード分類に特有なデータ拡張戦略を持つ教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T22:30:00Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。