論文の概要: Point Prediction for Streaming Data
- arxiv url: http://arxiv.org/abs/2408.01318v1
- Date: Fri, 2 Aug 2024 15:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 13:07:59.457190
- Title: Point Prediction for Streaming Data
- Title(参考訳): ストリーミングデータのポイント予測
- Authors: Aleena Chanda, N. V. Vinodchandran, Bertrand Clarke,
- Abstract要約: 本稿では,ストリーミングデータを用いた2つの新しい点予測手法を提案する。
1つはCount-Minスケッチ(CMS)に基づいており、もう1つはランダムなバイアスを持つガウス過程の先行に基づく。
- 参考スコア(独自算出の注目度): 27.938266762930994
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present two new approaches for point prediction with streaming data. One is based on the Count-Min sketch (CMS) and the other is based on Gaussian process priors with a random bias. These methods are intended for the most general predictive problems where no true model can be usefully formulated for the data stream. In statistical contexts, this is often called the $\mathcal{M}$-open problem class. Under the assumption that the data consists of i.i.d samples from a fixed distribution function $F$, we show that the CMS-based estimates of the distribution function are consistent. We compare our new methods with two established predictors in terms of cumulative $L^1$ error. One is based on the Shtarkov solution (often called the normalized maximum likelihood) in the normal experts setting and the other is based on Dirichlet process priors. These comparisons are for two cases. The first is one-pass meaning that the updating of the predictors is done using the fact that the CMS is a sketch. For predictors that are not one-pass, we use streaming $K$-means to give a representative subset of fixed size that can be updated as data accumulate. Preliminary computational work suggests that the one-pass median version of the CMS method is rarely outperformed by the other methods for sufficiently complex data. We also find that predictors based on Gaussian process priors with random biases perform well. The Shtarkov predictors we use here did not perform as well probably because we were only using the simplest example. The other predictors seemed to perform well mainly when the data did not look like they came from an M-open data generator.
- Abstract(参考訳): 本稿では,ストリーミングデータを用いた2つの新しい点予測手法を提案する。
1つはCount-Minスケッチ(CMS)に基づいており、もう1つはランダムなバイアスを持つガウス過程の先行に基づく。
これらの手法は、真のモデルがデータストリームに対して有用に定式化できない、最も一般的な予測問題を対象としている。
統計的文脈では、これはしばしば$\mathcal{M}$-open problem classと呼ばれる。
固定分布関数$F$のi.dサンプルからなるという仮定の下で、分布関数のCMSに基づく推定が一貫したことを示す。
我々は新しい手法を2つの確立された予測器と比較し、累積的な$L^1$誤差の観点から比較する。
1つは、通常の専門家設定におけるシュタルコフ解(しばしば正規化最大可能性と呼ばれる)に基づいており、もう1つはディリクレ過程の先行に基づくものである。
これらの比較は2例である。
1つはワンパスであり、CMSがスケッチであるという事実を使って予測器の更新が行われることを意味する。
1パスではなく、ストリーミング$K$-meansを使用して、データ蓄積時に更新可能な固定サイズの代表的なサブセットを提供します。
予備的な計算研究は、CMS法の1パス中央値バージョンが、十分複雑なデータのための他の方法よりも優れていることは滅多にないことを示している。
また、ランダムなバイアスを持つガウス過程に基づく予測器が良好に動作することも見出した。
私たちがここで使用しているシュタルコフ予測器は、おそらく最も単純な例だけを使用していたため、うまく機能しなかった。
他の予測器は、主にデータがMオープンデータジェネレータから来たように見えなかったときにうまく機能したように思われた。
関連論文リスト
- SPD-DDPM: Denoising Diffusion Probabilistic Models in the Symmetric
Positive Definite Space [47.65912121120524]
本研究では,大規模データを扱う新しい生成モデルであるSPD-DDPMを提案する。
我々のモデルは、$y$を与えることなく、無条件で柔軟に$p(X)$を見積もることができる。
おもちゃのデータと実際のタクシーデータによる実験結果から、我々のモデルは無条件と無条件の両方のデータ分布に効果的に適合することが示された。
論文 参考訳(メタデータ) (2023-12-13T15:08:54Z) - Contrastive Difference Predictive Coding [79.74052624853303]
本研究では、時系列データの断片を縫合して、将来の事象の予測を学習するために必要なデータの量を減少させるコントラッシブ予測符号化の時間差版を導入する。
目的条件付きRLの非政治アルゴリズムを導出するために,この表現学習手法を適用した。
論文 参考訳(メタデータ) (2023-10-31T03:16:32Z) - Improved Convergence of Score-Based Diffusion Models via Prediction-Correction [15.772322871598085]
スコアベース生成モデル(SGM)は、複雑なデータ分布からサンプリングする強力なツールである。
本稿では,一般的な予測器・相関器方式のバージョンを考慮し,この問題に対処する。
まず、不正確なランゲヴィン力学を用いて最終分布を推定し、次にその過程を逆転する。
論文 参考訳(メタデータ) (2023-05-23T15:29:09Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Failure and success of the spectral bias prediction for Kernel Ridge
Regression: the case of low-dimensional data [0.28647133890966986]
一部のレジームでは、カーネルの固有基底上の真の関数 $f*$ を分解して、この方法がスペクトルバイアスを持つと予測している。
この予測は、画像などのベンチマークデータセットで非常にうまく機能するが、これらのアプローチがデータに対して行う仮定は、実際には満たされない。
論文 参考訳(メタデータ) (2022-02-07T16:48:14Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Backward-Compatible Prediction Updates: A Probabilistic Approach [12.049279991559091]
本稿では,予測更新問題を定式化し,上記の質問に対する効率的な確率的アプローチを提案する。
標準分類ベンチマークデータセットの広範な実験において,提案手法は後方互換性のある予測更新のための代替戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-02T13:05:31Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。