論文の概要: Balancing Constraints and Submodularity in Data Subset Selection
- arxiv url: http://arxiv.org/abs/2104.12835v1
- Date: Mon, 26 Apr 2021 19:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 01:37:46.420246
- Title: Balancing Constraints and Submodularity in Data Subset Selection
- Title(参考訳): データサブセット選択における制約とサブモジュラリティのバランス
- Authors: Srikumar Ramalingam, Daniel Glasner, Kaushal Patel, Raviteja
Vemulapalli, Sadeep Jayasumana, Sanjiv Kumar
- Abstract要約: より少ないトレーニングデータを用いて、従来のディープラーニングモデルと同様の精度が得られることを示す。
新たな多様性駆動客観的関数を提案し,マトロイドを用いたクラスラベルと決定境界の制約のバランスをとる。
- 参考スコア(独自算出の注目度): 43.03720397062461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has yielded extraordinary results in vision and natural
language processing, but this achievement comes at a cost. Most deep learning
models require enormous resources during training, both in terms of computation
and in human labeling effort. In this paper, we show that one can achieve
similar accuracy to traditional deep-learning models, while using less training
data. Much of the previous work in this area relies on using uncertainty or
some form of diversity to select subsets of a larger training set.
Submodularity, a discrete analogue of convexity, has been exploited to model
diversity in various settings including data subset selection. In contrast to
prior methods, we propose a novel diversity driven objective function, and
balancing constraints on class labels and decision boundaries using matroids.
This allows us to use efficient greedy algorithms with approximation guarantees
for subset selection. We outperform baselines on standard image classification
datasets such as CIFAR-10, CIFAR-100, and ImageNet. In addition, we also show
that the proposed balancing constraints can play a key role in boosting the
performance in long-tailed datasets such as CIFAR-100-LT.
- Abstract(参考訳): ディープラーニングは視覚と自然言語処理の素晴らしい成果をもたらしたが、この成果にはコストがかかる。
ほとんどのディープラーニングモデルは、計算と人間のラベル付けの両面で、トレーニング中に膨大なリソースを必要とします。
本稿では,より少ないトレーニングデータを用いて,従来のディープラーニングモデルと同様の精度が得られることを示す。
この領域での以前の作業の多くは、より大きなトレーニングセットのサブセットを選択するために不確実性やある種の多様性を使うことに依存している。
凸性の離散的類似である部分モジュラリティは、データサブセットの選択を含む様々な設定の多様性をモデル化するために利用されてきた。
従来の手法とは対照的に,新しい多様性駆動目的関数を提案し,マトロイドを用いたクラスラベルと決定バウンダリの制約のバランスをとる。
これにより、部分集合選択に対する近似保証付き効率的なグリードアルゴリズムを使用できる。
我々は、CIFAR-10、CIFAR-100、ImageNetなどの標準画像分類データセットのベースラインを上回ります。
さらに,提案するバランス制約が,cifar-100-ltなどのロングテールデータセットのパフォーマンス向上に重要な役割を果たすことを示す。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning [89.98353600316285]
擬似ラベルサンプリングのモデル化プロセスに不確実性を導入し、各クラスにおけるモデル性能が異なる訓練段階によって異なることを考慮した。
このアプローチにより、モデルは異なる訓練段階における擬似ラベルの不確かさを認識でき、それによって異なるクラスの選択閾値を適応的に調整できる。
FixMatchのような他の手法と比較して、UDTSは自然シーン画像データセットの精度を少なくとも5.26%、1.75%、9.96%、1.28%向上させる。
論文 参考訳(メタデータ) (2024-01-09T08:59:39Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Frugal Reinforcement-based Active Learning [12.18340575383456]
本稿では,ラベル効率向上のための新しい能動的学習手法を提案する。
提案手法は反復的であり,多様性,表現性,不確実性の基準を混合した制約対象関数の最小化を目的としている。
また、強化学習に基づく新たな重み付け機構を導入し、各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。
論文 参考訳(メタデータ) (2022-12-09T14:17:45Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Mixing Deep Learning and Multiple Criteria Optimization: An Application
to Distributed Learning with Multiple Datasets [0.0]
トレーニングフェーズは、マシンラーニングプロセスにおいて最も重要なステージです。
本研究では,特定の入力とラベルに関連付けられた出力との距離を基準として,複数の基準最適化モデルを構築した。
MNISTデータを用いた数値分類において,このモデルと数値実験を実現するためのスカラー化手法を提案する。
論文 参考訳(メタデータ) (2021-12-02T16:00:44Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。