論文の概要: Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints
- arxiv url: http://arxiv.org/abs/2311.08675v2
- Date: Thu, 29 Feb 2024 14:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:23:57.053715
- Title: Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints
- Title(参考訳): 精製コアセット選択:モデル性能制約下での最小コアセットサイズを目指して
- Authors: Xiaobo Xia, Jiale Liu, Shaokun Zhang, Qingyun Wu, Hongxin Wei,
Tongliang Liu
- Abstract要約: コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
- 参考スコア(独自算出の注目度): 69.27190330994635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coreset selection is powerful in reducing computational costs and
accelerating data processing for deep learning algorithms. It strives to
identify a small subset from large-scale data, so that training only on the
subset practically performs on par with full data. Practitioners regularly
desire to identify the smallest possible coreset in realistic scenes while
maintaining comparable model performance, to minimize costs and maximize
acceleration. Motivated by this desideratum, for the first time, we pose the
problem of refined coreset selection, in which the minimal coreset size under
model performance constraints is explored. Moreover, to address this problem,
we propose an innovative method, which maintains optimization priority order
over the model performance and coreset size, and efficiently optimizes them in
the coreset selection procedure. Theoretically, we provide the convergence
guarantee of the proposed method. Empirically, extensive experiments confirm
its superiority compared with previous strategies, often yielding better model
performance with smaller coreset sizes.
- Abstract(参考訳): coreset選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に有効である。
大規模なデータから小さなサブセットを識別することに取り組んでいるため、サブセット上のトレーニングのみをフルデータとほぼ同等に実行する。
実践者は、コストを最小化し、加速を最大化するために、同等のモデル性能を維持しながら、現実的なシーンで最小のコアセットを特定することを定期的に望んでいます。
このデシデラタムに動機づけられ、モデル性能制約の下で最小コアセットサイズを探索する洗練されたコアセット選択の問題が初めて提起された。
さらに,この問題に対処するために,モデル性能とコアセットサイズよりも優先順序を最適化し,コアセット選択手順で効率的に最適化する革新的な手法を提案する。
理論的には,提案手法の収束保証を提供する。
実験的に、広範な実験により、以前の戦略と比べてその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
関連論文リスト
- Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Probabilistic Bilevel Coreset Selection [24.874967723659022]
本稿では,各トレーニングサンプルの確率的重みを学習することにより,コアセット選択の連続確率的2レベル定式化を提案する。
暗黙的な微分の問題を伴わずに、偏りのない政策勾配を経由し、二段階最適化問題に対する効率的な解法を開発する。
論文 参考訳(メタデータ) (2023-01-24T09:37:00Z) - Coverage-centric Coreset Selection for High Pruning Rates [11.18635356469467]
ワンショットコアセット選択は、プルーニング率からトレーニングデータのサブセットを選択することを目的としており、その後、そのサブセットでのみトレーニングされたモデルに対して高い精度を達成することができる。
最先端のコアセット選択方法は通常、各例に重要スコアを割り当て、コアセットを形成する上で最も重要な例を選択する。
しかし、高い刈り取り速度では、破滅的な精度の低下に悩まされ、ランダムなコアセットの選択よりもパフォーマンスが悪くなっていることが判明した。
論文 参考訳(メタデータ) (2022-10-28T00:14:00Z) - A Novel Sequential Coreset Method for Gradient Descent Algorithms [21.40879052693993]
Coresetは、これまで広く研究されてきた一般的なデータ圧縮技術である。
擬似次元と全感度境界を効果的に回避する「逐次コアセット」と呼ばれる新しいフレームワークを提案する。
本手法は, コアセットサイズをさらに小さくすることで, 次元に依存した多対数しか持たない場合のスパース最適化に特に適している。
論文 参考訳(メタデータ) (2021-12-05T08:12:16Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Coresets via Bilevel Optimization for Continual Learning and Streaming [86.67190358712064]
濃度制約付き二レベル最適化による新しいコアセット構成を提案する。
我々のフレームワークがディープニューラルネットワークのコアセットを効率的に生成できることを示し、連続学習やストリーミング設定における経験的メリットを示す。
論文 参考訳(メタデータ) (2020-06-06T14:20:25Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。