論文の概要: A Weighted K-Center Algorithm for Data Subset Selection
- arxiv url: http://arxiv.org/abs/2312.10602v1
- Date: Sun, 17 Dec 2023 04:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:46:17.164367
- Title: A Weighted K-Center Algorithm for Data Subset Selection
- Title(参考訳): データサブセット選択のための重み付きk中心アルゴリズム
- Authors: Srikumar Ramalingam, Pranjal Awasthi, Sanjiv Kumar
- Abstract要約: サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 70.49696246526199
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The success of deep learning hinges on enormous data and large models, which
require labor-intensive annotations and heavy computation costs. Subset
selection is a fundamental problem that can play a key role in identifying
smaller portions of the training data, which can then be used to produce
similar models as the ones trained with full data. Two prior methods are shown
to achieve impressive results: (1) margin sampling that focuses on selecting
points with high uncertainty, and (2) core-sets or clustering methods such as
k-center for informative and diverse subsets. We are not aware of any work that
combines these methods in a principled manner. To this end, we develop a novel
and efficient factor 3-approximation algorithm to compute subsets based on the
weighted sum of both k-center and uncertainty sampling objective functions. To
handle large datasets, we show a parallel algorithm to run on multiple machines
with approximation guarantees. The proposed algorithm achieves similar or
better performance compared to other strong baselines on vision datasets such
as CIFAR-10, CIFAR-100, and ImageNet.
- Abstract(参考訳): ディープラーニングの成功は、膨大なデータと巨大なモデルに基づいており、労働集約的なアノテーションと重い計算コストを必要とする。
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす基本的な問題である。
1)不確実性の高い点の選択に焦点を当てたマージンサンプリング,(2)情報的および多様な部分集合のためのk-centerのようなコアセットやクラスタリング手法である。
これらの手法を原則的に組み合わせた作業は、私たちは知りません。
そこで本研究では,k中心および不確実性サンプリング対象関数の重み付け和に基づいてサブセットを計算するための,新しい,効率的な係数3近似アルゴリズムを開発した。
大規模データセットを扱うために,複数のマシン上で動作する並列アルゴリズムを近似保証で示す。
提案アルゴリズムは、CIFAR-10, CIFAR-100, ImageNetなどのビジョンデータセット上の他の強力なベースラインと比較して、類似またはより良い性能を実現する。
関連論文リスト
- TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - SSDBCODI: Semi-Supervised Density-Based Clustering with Outliers
Detection Integrated [1.8444322599555096]
クラスタリング分析は、機械学習における重要なタスクの1つだ。
クラスタリングクラスタリングのパフォーマンスが、異常値によって著しく損なわれる可能性があるため、アルゴリズムは、異常値検出のプロセスを組み込もうとする。
我々は,半教師付き検出素子であるSSDBCODIを提案する。
論文 参考訳(メタデータ) (2022-08-10T21:06:38Z) - A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。
私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文 参考訳(メタデータ) (2021-12-29T19:15:20Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - DAC: Deep Autoencoder-based Clustering, a General Deep Learning
Framework of Representation Learning [0.0]
dac,deep autoencoder-based clustering,深層ニューロンネットワークを用いてクラスタリング表現を学ぶためのデータ駆動フレームワークを提案する。
実験結果から,KMeansクラスタリングアルゴリズムの性能をさまざまなデータセット上で効果的に向上させることができた。
論文 参考訳(メタデータ) (2021-02-15T11:31:00Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。