論文の概要: Passive Approach for the K-means Problem on Streaming Data
- arxiv url: http://arxiv.org/abs/2012.03628v1
- Date: Mon, 7 Dec 2020 12:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 09:51:59.495265
- Title: Passive Approach for the K-means Problem on Streaming Data
- Title(参考訳): ストリーミングデータにおけるK平均問題に対するパッシブアプローチ
- Authors: Arkaitz Bidaurrazaga, Aritz P\'erez and Marco Cap\'o
- Abstract要約: ストリーミングデータシナリオでは、データは、概念ドリフト現象が起こる可能性のあるバッチのシーケンスによって構成される。
本稿では,概念ドリフト検出に依存しない代理誤差関数を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently the amount of data produced worldwide is increasing beyond measure,
thus a high volume of unsupervised data must be processed continuously. One of
the main unsupervised data analysis is clustering. In streaming data scenarios,
the data is composed by an increasing sequence of batches of samples where the
concept drift phenomenon may happen. In this paper, we formally define the
Streaming $K$-means(S$K$M) problem, which implies a restart of the error
function when a concept drift occurs. We propose a surrogate error function
that does not rely on concept drift detection. We proof that the surrogate is a
good approximation of the S$K$M error. Hence, we suggest an algorithm which
minimizes this alternative error each time a new batch arrives. We present some
initialization techniques for streaming data scenarios as well. Besides
providing theoretical results, experiments demonstrate an improvement of the
converged error for the non-trivial initialization methods.
- Abstract(参考訳): 現在、世界中で生成されるデータ量は測定値を超えているため、教師なしデータの大量処理は継続して行わなければならない。
主要な教師なしデータ分析の1つはクラスタリングである。
ストリーミングデータシナリオでは、データは、概念ドリフト現象が起こる可能性のあるサンプルのバッチのシーケンスによって構成される。
本稿では,概念ドリフトが発生した場合のエラー関数の再起動を意味するStreaming $K$-means(S$K$M)問題を正式に定義する。
本稿では,概念ドリフト検出に依存しない代理誤差関数を提案する。
我々は、サロゲートがS$K$M誤差のよい近似であることを証明する。
したがって、新しいバッチが到着するたびに、この代替エラーを最小化するアルゴリズムを提案する。
ストリーミングデータシナリオの初期化手法についても紹介する。
理論的な結果を提供するだけでなく、実験は非自明な初期化法に対する収束誤差の改善を示す。
関連論文リスト
- Mitigating covariate shift in non-colocated data with learned parameter priors [0.0]
textitFragmentation-induced co-shift remediation(FIcsR$)は、フラグメントの共変量分布と標準クロスバリデーションベースラインとの$f$-divergenceを最小限にする。
複数のデータクラス、40ドル以上のデータセット、および複数のシーケンス長にわたってバッチ化されたデータに対して、広範な分類実験を行います。
バッチとフォールド・オブ・ザ・アーティファクトに対する精度は、それぞれ5%以上と10%以上向上している。
論文 参考訳(メタデータ) (2024-11-10T15:48:29Z) - Straightness of Rectified Flow: A Theoretical Insight into Wasserstein Convergence [54.580605276017096]
拡散モデルは画像生成とデノナイズのための強力なツールとして登場した。
最近、Liuらは新しい代替生成モデル Rectified Flow (RF) を設計した。
RFは,一連の凸最適化問題を用いて,ノイズからデータへの直流軌跡の学習を目的としている。
論文 参考訳(メタデータ) (2024-10-19T02:36:11Z) - A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Improved Convergence of Score-Based Diffusion Models via Prediction-Correction [15.772322871598085]
スコアベース生成モデル(SGM)は、複雑なデータ分布からサンプリングする強力なツールである。
本稿では,一般的な予測器・相関器方式のバージョンを考慮し,この問題に対処する。
まず、不正確なランゲヴィン力学を用いて最終分布を推定し、次にその過程を逆転する。
論文 参考訳(メタデータ) (2023-05-23T15:29:09Z) - CADM: Confusion Model-based Detection Method for Real-drift in Chunk
Data Stream [3.0885191226198785]
コンセプトドリフト検出は、健康モニタリングや故障診断といった現実の多くの応用において重要であることから、かなりの注目を集めている。
本稿では,概念的混乱に基づく限定アノテーションを用いて,チャンクデータストリーム内のリアルタイムドリフトを検出する手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T08:59:27Z) - Information Theoretical Importance Sampling Clustering [18.248246885248733]
多くのクラスタリング手法の現在の仮定は、トレーニングデータと将来のデータが同じ分布から取られるというものである。
我々は,クラスタリング問題(itisC)に対する情報理論的重要度サンプリングに基づくアプローチを提案する。
合成データセットの実験結果と実世界の負荷予測問題により,提案モデルの有効性が検証された。
論文 参考訳(メタデータ) (2023-02-09T03:18:53Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - On the Error Resistance of Hinge Loss Minimization [30.808062097285706]
我々は、損失最小化アルゴリズムが正しい分類器を確実に学習するデータ上の条件の集合を同定する。
特に、データがわずかに非自明なマージンで線形に分類可能であれば、サロゲート損失最小化は非破壊データに無視できる誤差を持つことを示す。
論文 参考訳(メタデータ) (2020-12-02T06:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。