論文の概要: Robust Coreset for Continuous-and-Bounded Learning (with Outliers)
- arxiv url: http://arxiv.org/abs/2107.00068v1
- Date: Wed, 30 Jun 2021 19:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:52:48.868795
- Title: Robust Coreset for Continuous-and-Bounded Learning (with Outliers)
- Title(参考訳): 連続・境界学習のためのロバストコアセット
- Authors: Zixiu Wang, Yiwen Guo and Hu Ding
- Abstract要約: 本研究では,エム連続有界学習問題に対する新しいロバストなコアセット法を提案する。
私たちの堅牢なコアセットは、完全にダイナミックな環境で効率的に維持できます。
- 参考スコア(独自算出の注目度): 30.91741925182613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this big data era, we often confront large-scale data in many machine
learning tasks. A common approach for dealing with large-scale data is to build
a small summary, {\em e.g.,} coreset, that can efficiently represent the
original input. However, real-world datasets usually contain outliers and most
existing coreset construction methods are not resilient against outliers (in
particular, the outliers can be located arbitrarily in the space by an
adversarial attacker). In this paper, we propose a novel robust coreset method
for the {\em continuous-and-bounded learning} problem (with outliers) which
includes a broad range of popular optimization objectives in machine learning,
like logistic regression and $ k $-means clustering. Moreover, our robust
coreset can be efficiently maintained in fully-dynamic environment. To the best
of our knowledge, this is the first robust and fully-dynamic coreset
construction method for these optimization problems. We also conduct the
experiments to evaluate the effectiveness of our robust coreset in practice.
- Abstract(参考訳): このビッグデータの時代では、多くの機械学習タスクで大規模なデータに直面します。
大規模データを扱う一般的なアプローチは、元の入力を効率的に表現できる小さなサマリ(例えば、コアセット)を構築することである。
しかしながら、実世界のデータセットは通常、外れ値を含み、既存のコアセット構築メソッドのほとんどは、外れ値に対して回復力がない(特に、外れ値は敵の攻撃者によって空間に任意に配置できる)。
本稿では,ロジスティック回帰や$k$-meansクラスタリングなど,機械学習において広く普及している最適化目標を含む,"em continuous-and-bounded learning}問題に対する新しいロバストなコアセット法を提案する。
さらに、我々の堅牢なコアセットは、完全に動的環境下で効率よく維持できる。
我々の知る限り、これはこれらの最適化問題に対する最初の堅牢でフルダイナミックなコアセット構築方法である。
また,実運用におけるロバストコアセットの有効性を評価する実験を行った。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - Coresets for Relational Data and The Applications [8.573878018370547]
coresetは、元の入力データセットの構造を保存できる小さなセットである。
我々は、クラスタリング、ロジスティック回帰、SVMといった機械学習タスクにコアセットアプローチを適用することができることを示す。
論文 参考訳(メタデータ) (2022-10-09T12:46:27Z) - Adaptive Second Order Coresets for Data-efficient Machine Learning [5.362258158646462]
データセット上で機械学習モデルをトレーニングすると、かなりの計算コストが発生する。
機械学習のためのトレーニング例のサブセットを抽出するために,AdaCoreを提案する。
論文 参考訳(メタデータ) (2022-07-28T05:43:09Z) - Can we achieve robustness from data alone? [0.7366405857677227]
敵の訓練とその変種は、ニューラルネットワークを用いた敵の堅牢な分類を実現するための一般的な方法となっている。
そこで我々は,ロバストな分類のためのメタラーニング手法を考案し,その展開前のデータセットを原則的に最適化する。
MNIST と CIFAR-10 の実験により、我々が生成するデータセットはPGD 攻撃に対して非常に高い堅牢性を持つことが示された。
論文 参考訳(メタデータ) (2022-07-24T12:14:48Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Coresets via Bilevel Optimization for Continual Learning and Streaming [86.67190358712064]
濃度制約付き二レベル最適化による新しいコアセット構成を提案する。
我々のフレームワークがディープニューラルネットワークのコアセットを効率的に生成できることを示し、連続学習やストリーミング設定における経験的メリットを示す。
論文 参考訳(メタデータ) (2020-06-06T14:20:25Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。