論文の概要: Probabilistic Bilevel Coreset Selection
- arxiv url: http://arxiv.org/abs/2301.09880v1
- Date: Tue, 24 Jan 2023 09:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:00:55.917128
- Title: Probabilistic Bilevel Coreset Selection
- Title(参考訳): 確率的二レベルコアセット選択
- Authors: Xiao Zhou, Renjie Pi, Weizhong Zhang, Yong Lin, Tong Zhang
- Abstract要約: 本稿では,各トレーニングサンプルの確率的重みを学習することにより,コアセット選択の連続確率的2レベル定式化を提案する。
暗黙的な微分の問題を伴わずに、偏りのない政策勾配を経由し、二段階最適化問題に対する効率的な解法を開発する。
- 参考スコア(独自算出の注目度): 24.874967723659022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of coreset selection in supervised learning is to produce a weighted
subset of data, so that training only on the subset achieves similar
performance as training on the entire dataset. Existing methods achieved
promising results in resource-constrained scenarios such as continual learning
and streaming. However, most of the existing algorithms are limited to
traditional machine learning models. A few algorithms that can handle large
models adopt greedy search approaches due to the difficulty in solving the
discrete subset selection problem, which is computationally costly when coreset
becomes larger and often produces suboptimal results. In this work, for the
first time we propose a continuous probabilistic bilevel formulation of coreset
selection by learning a probablistic weight for each training sample. The
overall objective is posed as a bilevel optimization problem, where 1) the
inner loop samples coresets and train the model to convergence and 2) the outer
loop updates the sample probability progressively according to the model's
performance. Importantly, we develop an efficient solver to the bilevel
optimization problem via unbiased policy gradient without trouble of implicit
differentiation. We provide the convergence property of our training procedure
and demonstrate the superiority of our algorithm against various coreset
selection methods in various tasks, especially in more challenging label-noise
and class-imbalance scenarios.
- Abstract(参考訳): 教師付き学習におけるコアセット選択の目標は、データの重み付けされたサブセットを作成することだ。
既存の手法は、連続学習やストリーミングといったリソース制約のあるシナリオにおいて有望な結果を得た。
しかし、既存のアルゴリズムのほとんどは従来の機械学習モデルに限定されている。
大規模モデルに対処できるアルゴリズムは、離散部分集合選択問題の解決が困難であり、コアセットが大きくなると計算コストが高くなり、しばしば準最適結果を生成するため、欲求的な探索手法を採用する。
本研究では,各トレーニングサンプルの確率的重みを学習することにより,コアセット選択の連続確率的2レベル定式化を初めて提案する。
全体的な目的は、二段階最適化問題として提示される。
1)内ループはコアセットをサンプリングし、収束するようモデルを訓練し、
2)アウターループは、モデルの性能に応じて、サンプル確率を段階的に更新する。
重要なのは,非バイアスポリシー勾配による二段階最適化問題に対する効率的な解法を,暗黙的な分化に支障をきたすことなく開発することである。
我々は,学習手順の収束特性を提供し,様々なタスク,特にラベルノイズやクラス不均衡のシナリオにおいて,様々なコアセット選択法に対するアルゴリズムの優越性を示す。
関連論文リスト
- Meta-Learning from Learning Curves for Budget-Limited Algorithm Selection [11.409496019407067]
予算制限のシナリオでは、アルゴリズム候補を慎重に選択し、それを訓練するための予算を割り当てることが不可欠である。
本稿では,エージェントが十分に訓練されるまで待たずに,最も有望なアルゴリズムを学習する過程において,エージェントが選択しなければならない新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-10T08:09:58Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Adaptive Second Order Coresets for Data-efficient Machine Learning [5.362258158646462]
データセット上で機械学習モデルをトレーニングすると、かなりの計算コストが発生する。
機械学習のためのトレーニング例のサブセットを抽出するために,AdaCoreを提案する。
論文 参考訳(メタデータ) (2022-07-28T05:43:09Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z) - Outlier-Robust Learning of Ising Models Under Dobrushin's Condition [57.89518300699042]
本研究では, サンプルの一定割合が逆向きに破壊されるような外乱条件下で, ドブルシンの条件を満たすIsingモデルの学習問題について検討する。
我々の主な成果は、ほぼ最適誤差保証を伴うこの問題に対して、計算効率のよい最初の頑健な学習アルゴリズムを提供することである。
論文 参考訳(メタデータ) (2021-02-03T18:00:57Z) - Uncovering Coresets for Classification With Multi-Objective Evolutionary
Algorithms [0.8057006406834467]
coresetはトレーニングセットのサブセットであり、機械学習アルゴリズムが元のデータ全体にわたってトレーニングされた場合の成果と同じようなパフォーマンスを取得する。
候補コルセットは反復的に最適化され、サンプルの追加と削除が行われる。
多目的進化アルゴリズムは、集合内の点数と分類誤差を同時に最小化するために用いられる。
論文 参考訳(メタデータ) (2020-02-20T09:59:56Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。