論文の概要: Rethinking Representativeness and Diversity in Dynamic Data Selection
- arxiv url: http://arxiv.org/abs/2603.04981v1
- Date: Thu, 05 Mar 2026 09:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.163441
- Title: Rethinking Representativeness and Diversity in Dynamic Data Selection
- Title(参考訳): 動的データ選択における代表性と多様性の再考
- Authors: Yuzhe Zhou, Zhenglin Hua, Haiyun Guo, Yuheng Jia,
- Abstract要約: 動的データ選択は、精度を維持しながらデータセットの変動するサブセットをサンプリングすることで、トレーニングを加速する。
サンプル評価の基礎となる2つの基本概念、代表性と多様性を再考する。
本手法は2倍以上のトレーニングアクセラレーションと完全データ精度を一致または超える。
- 参考スコア(独自算出の注目度): 32.400383488290906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic data selection accelerates training by sampling a changing subset of the dataset while preserving accuracy. We rethink two core notions underlying sample evaluation: representativeness and diversity. Instead of local geometric centrality, we define representativeness as coverage of dataset-level common or high-frequency feature factors. Instead of within-subset dispersion, we define diversity at the process level, requiring the selection trajectory to gradually include complementary rare factors over training. Based on this view, we propose a dynamic selection framework with three components. First, we score representativeness in a plug-in feature space to prioritize samples covering frequent factors. We instantiate this with a sparse autoencoder trained on the target dataset, using sparse unit activations to summarize both individual samples and dataset-wide factor statistics. Second, we realize process-level diversity by combining rare-factor sampling with a Usage-Frequency Penalty that promotes sample rotation, provably discourages monopoly, and reduces gradient bias. Third, we couple the two-dimensional scoring with a smooth scheduler that transitions selection from core-pattern consolidation to rare-factor exploration, without extra gradients, influence estimates, or second-order computations on the training model. Extensive experiments on five benchmarks across vision and text tasks demonstrate improved accuracy-efficiency trade-offs across models. Our method matches or exceeds full-data accuracy with over 2x training acceleration. Code will be released.
- Abstract(参考訳): 動的データ選択は、精度を維持しながらデータセットの変動するサブセットをサンプリングすることで、トレーニングを加速する。
サンプル評価の基礎となる2つの基本概念、代表性と多様性を再考する。
局所的な幾何学的中心性の代わりに、表現性はデータセットレベルの共通または高周波の特徴因子のカバレッジとして定義する。
プロセスレベルでの多様性の定義は,プロセスのサブセット内での分散ではなく,学習において相補的な稀な要因を徐々に含み,選択の軌跡を徐々に含まなければならない。
この観点から,3つのコンポーネントからなる動的選択フレームワークを提案する。
まず、プラグインの特徴空間における代表性を評価し、頻繁な要因をカバーするサンプルを優先順位付けする。
ターゲットデータセット上でトレーニングされたスパースオートエンコーダでこれをインスタンス化し、スパースユニットアクティベーションを使用して、個々のサンプルとデータセット全体の因子統計の両方を要約する。
第2に, サンプル回転を促進し, モノポリーを確実に阻害し, 勾配バイアスを低減させるUsage-Frequency Penaltyとレアファクタサンプリングを組み合わせることにより, プロセスレベルの多様性を実現する。
第3に、この2次元スコアリングとスムーズなスケジューラを結合し、コアパターンの統合からレア要素探索への選択を、余分な勾配や影響推定、トレーニングモデル上の2階計算なしで変換する。
ビジョンとテキストタスクにわたる5つのベンチマークに関する大規模な実験は、モデル間の精度と効率のトレードオフを改善したことを示している。
本手法は2倍以上のトレーニングアクセラレーションと完全データ精度を一致または超える。
コードはリリースされる。
関連論文リスト
- The Impact of Coreset Selection on Spurious Correlations and Group Robustness [27.47900711644272]
コアセット選択手法は、データ効率のよい機械学習のためのモデル性能を維持しながら、トレーニングデータサイズの削減を約束している。
我々は、選択したコアセットの急激なバイアスレベルに対するデータ選択の影響と、それらに基づいてトレーニングされた下流モデルのロバスト性について、初めて包括的分析を行った。
論文 参考訳(メタデータ) (2025-07-15T19:46:30Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - FedUV: Uniformity and Variance for Heterogeneous Federated Learning [5.9330433627374815]
フェデレーション学習は、広く分散されたデータでニューラルネットワークをトレーニングするための有望なフレームワークである。
最近の研究によると、ネットワークの最終層が局所バイアスの傾向が最も大きいためである。
凍結重量が一定の特異値をもたらすという観測によって動機付けられた重みにSVDを適用して分類器の訓練力学を考察する。
論文 参考訳(メタデータ) (2024-02-27T15:53:15Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - AdaSelection: Accelerating Deep Learning Training through Data
Subsampling [27.46630703428186]
適応型サブサンプリング手法であるAdaSelectionを導入し,各ミニバッチ内の最も情報性の高いサブサンプルを同定する。
業界標準のベースラインと比較すると、AdaSelectionは一貫して優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-19T07:01:28Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Gaussian Switch Sampling: A Second Order Approach to Active Learning [11.775252660867285]
能動的学習において、取得関数は、モデル多様体内の表現位置に直接情報性を定義する。
本稿では,アクティブラーニングの文脈における情報内容とサンプルの重要性の2次定義を提案する。
我々は,モデル表現が訓練データの欠如によって制約されている場合でも,その定義が極めて正確な重要度スコアを生成することを示す。
論文 参考訳(メタデータ) (2023-02-16T15:24:56Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。