論文の概要: On Coresets for Support Vector Machines
- arxiv url: http://arxiv.org/abs/2002.06469v1
- Date: Sat, 15 Feb 2020 23:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 22:51:22.570188
- Title: On Coresets for Support Vector Machines
- Title(参考訳): サポートベクトルマシンのコアセットについて
- Authors: Murad Tukan, Cenk Baykal, Dan Feldman, Daniela Rus
- Abstract要約: coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 61.928187390362176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an efficient coreset construction algorithm for large-scale
Support Vector Machine (SVM) training in Big Data and streaming applications. A
coreset is a small, representative subset of the original data points such that
a models trained on the coreset are provably competitive with those trained on
the original data set. Since the size of the coreset is generally much smaller
than the original set, our preprocess-then-train scheme has potential to lead
to significant speedups when training SVM models. We prove lower and upper
bounds on the size of the coreset required to obtain small data summaries for
the SVM problem. As a corollary, we show that our algorithm can be used to
extend the applicability of any off-the-shelf SVM solver to streaming,
distributed, and dynamic data settings. We evaluate the performance of our
algorithm on real-world and synthetic data sets. Our experimental results
reaffirm the favorable theoretical properties of our algorithm and demonstrate
its practical effectiveness in accelerating SVM training.
- Abstract(参考訳): 本稿では,ビッグデータおよびストリーミングアプリケーションにおける大規模サポートベクトルマシン(SVM)トレーニングのための効率的なコアセット構築アルゴリズムを提案する。
coresetは、coresetでトレーニングされたモデルがオリジナルのデータセットでトレーニングされたモデルと確実に競合するように、オリジナルのデータポイントの小さな代表的なサブセットである。
コアセットのサイズは、通常、元のセットよりもはるかに小さいため、SVMモデルのトレーニングにおいて、プリプロセス-then-trainスキームが大幅に高速化される可能性がある。
我々は,SVM問題に対する小さなデータ要約を得るのに必要なコアセットのサイズについて,下限と上限を証明した。
結論として,本アルゴリズムは,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
実世界および合成データセットにおけるアルゴリズムの性能を評価する。
実験結果から,本アルゴリズムの理論的特性を再確認し,svm学習の促進効果を実証した。
関連論文リスト
- Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - Distributive Pre-Training of Generative Modeling Using Matrix-Product
States [0.0]
本稿では,基本的なテンソルネットワーク操作,例えば和と圧縮を利用した代替的なトレーニング手法を検討する。
トレーニングアルゴリズムは、製品状態表現におけるすべてのトレーニングデータから構築された重ね合わせ状態を圧縮する。
MNISTデータセット上でアルゴリズムをベンチマークし、新しい画像と分類タスクを生成するための妥当な結果を示す。
論文 参考訳(メタデータ) (2023-06-26T15:46:08Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Coreset of Hyperspectral Images on Small Quantum Computer [3.8637821835441732]
私たちは、この小さなD-Wave QA上でSVMをトレーニングするために、与えられたEOデータのコアセット(データセットのコア)を使用します。
Kullback-Leibler (KL) 偏差測定を用いて, 元のデータセットとそのコアセット間の近接度を測定した。
論文 参考訳(メタデータ) (2022-04-10T14:14:20Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Dataset Meta-Learning from Kernel Ridge-Regression [18.253682891579402]
Kernel Inducing Points (KIP) はデータセットを1桁から2桁に圧縮することができる。
KIP学習データセットは、遅延学習体制を超えても有限幅ニューラルネットワークのトレーニングに転送可能である。
論文 参考訳(メタデータ) (2020-10-30T18:54:04Z) - Coresets via Bilevel Optimization for Continual Learning and Streaming [86.67190358712064]
濃度制約付き二レベル最適化による新しいコアセット構成を提案する。
我々のフレームワークがディープニューラルネットワークのコアセットを効率的に生成できることを示し、連続学習やストリーミング設定における経験的メリットを示す。
論文 参考訳(メタデータ) (2020-06-06T14:20:25Z) - Convolutional Support Vector Machine [1.5990720051907859]
本稿では、より小さなデータセットをマイニングする精度と有効性を改善するために、CNNとSVMの両方の利点を持つ新しい畳み込みSVM(CSVM)を提案する。
提案したCSVMの性能を評価するため,分類問題に対する5つのよく知られたベンチマークデータベースをテストする実験を行った。
論文 参考訳(メタデータ) (2020-02-11T11:23:21Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。