論文の概要: UNSEEN: Enhancing Dataset Pruning from a Generalization Perspective
- arxiv url: http://arxiv.org/abs/2511.12988v1
- Date: Mon, 17 Nov 2025 05:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.6796
- Title: UNSEEN: Enhancing Dataset Pruning from a Generalization Perspective
- Title(参考訳): UNSEEN: 一般化の観点からデータセットのプルーニングを促進する
- Authors: Furui Xu, Shaobo Wang, Jiajun Zhang, Chenghao Sun, Haixiang Tang, Linfeng Zhang,
- Abstract要約: 本稿では,既存のデータセットプルーニング手法に統合可能な,プラグアンドプレイフレームワークUNSEENを提案する。
我々はUNSEENを多段階シナリオに拡張し、様々なコアセットに基づいて訓練されたスコアリングモデルを用いて段階的選択手法を提案する。
提案手法は,CIFAR-10,CIFAR-100,ImageNet-1Kにおいて既存のSOTA法よりも優れていた。
- 参考スコア(独自算出の注目度): 17.593940249922557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing scale of datasets in deep learning has introduced significant computational challenges. Dataset pruning addresses this challenge by constructing a compact but informative coreset from the full dataset with comparable performance. Previous approaches typically establish scoring metrics based on specific criteria to identify representative samples. However, these methods predominantly rely on sample scores obtained from the model's performance during the training (i.e., fitting) phase. As scoring models achieve near-optimal performance on training data, such fitting-centric approaches induce a dense distribution of sample scores within a narrow numerical range. This concentration reduces the distinction between samples and hinders effective selection. To address this challenge, we conduct dataset pruning from the perspective of generalization, i.e., scoring samples based on models not exposed to them during training. We propose a plug-and-play framework, UNSEEN, which can be integrated into existing dataset pruning methods. Additionally, conventional score-based methods are single-step and rely on models trained solely on the complete dataset, providing limited perspective on the importance of samples. To address this limitation, we scale UNSEEN to multi-step scenarios and propose an incremental selection technique through scoring models trained on varying coresets, and optimize the quality of the coreset dynamically. Extensive experiments demonstrate that our method significantly outperforms existing state-of-the-art (SOTA) methods on CIFAR-10, CIFAR-100, and ImageNet-1K. Notably, on ImageNet-1K, UNSEEN achieves lossless performance while reducing training data by 30\%.
- Abstract(参考訳): ディープラーニングにおけるデータセットのスケールの増大は、重大な計算課題をもたらしている。
Dataset pruningはこの課題に対処し、完全なデータセットからコンパクトだが情報に富んだコアセットを、同等のパフォーマンスで構築する。
従来のアプローチでは、特定の基準に基づいてスコアを定め、代表的なサンプルを識別する。
しかし、これらの手法はトレーニング(すなわちフィッティング)期間中にモデルの性能から得られたサンプルスコアに大きく依存する。
スコアリングモデルがトレーニングデータ上でほぼ最適性能を達成すると、そのようなフィッティング中心のアプローチは狭い数値範囲内でサンプルスコアの密度分布を誘導する。
この濃度はサンプルの区別を減らし、効果的な選択を妨げる。
この課題に対処するために、一般化の観点からデータセットプルーニングを行う。
本稿では,既存のデータセットプルーニング手法に統合可能な,プラグアンドプレイフレームワークUNSEENを提案する。
さらに、従来のスコアベースの手法は単一ステップであり、完全なデータセットのみに訓練されたモデルに依存しており、サンプルの重要性について限定的な視点を提供する。
この制限に対処するため、UNSEENを多段階シナリオに拡張し、様々なコアセットで訓練されたスコアリングモデルを用いてインクリメンタルな選択手法を提案し、コアセットの品質を動的に最適化する。
CIFAR-10, CIFAR-100, ImageNet-1Kでは, 従来のSOTA法よりも優れていた。
特に ImageNet-1K では、UNSEEN はトレーニングデータを 30 % 削減しながら、損失のないパフォーマンスを実現している。
関連論文リスト
- Improving Model Classification by Optimizing the Training Dataset [3.987352341101438]
Coresetsはデータ削減に対する原則的なアプローチを提供し、大規模なデータセットでの効率的な学習を可能にする。
下流の分類品質を向上させるために,コアセット生成プロセスを調整するための体系的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-22T16:10:11Z) - Effective Data Pruning through Score Extrapolation [40.61665742457229]
少数のデータのみをトレーニングする必要のある,新たな重要スコア外挿フレームワークを導入する。
このフレームワークでは,この最小限のサブセットから学習したパターンを用いて,データセット全体のサンプル重要度を正確に予測する2つの初期アプローチを提案する。
以上の結果から,スコアの補間は,プルーニングやデータ属性,その他のタスクなど,高価なスコア計算手法をスケールする上で有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2025-06-10T17:38:49Z) - Coreset Selection via LLM-based Concept Bottlenecks [6.857632954159568]
Coreset Selection(CS)は、データセット全体の使用に匹敵するモデルパフォーマンスを達成するトレーニングデータセットのサブセットを特定することを目的としている。
本研究は,ダウンストリームモデルに依存しない人間の理解可能なテキスト属性(概念)を用いて,サンプルの難易度を計算するスコアを提案する。
我々のコアセットは高いプルーニングレートでもランダムなサブセットよりも優れており、動的手法を訓練することによって得られるコアセットに匹敵するモデル性能を実現している。
論文 参考訳(メタデータ) (2025-02-23T22:14:42Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。