論文の概要: A Note on Asynchronous Challenges: Unveiling Formulaic Bias and Data Loss in the Hayashi-Yoshida Estimator
- arxiv url: http://arxiv.org/abs/2404.18233v1
- Date: Sun, 28 Apr 2024 16:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 15:35:41.179856
- Title: A Note on Asynchronous Challenges: Unveiling Formulaic Bias and Data Loss in the Hayashi-Yoshida Estimator
- Title(参考訳): 非同期チャレンジに関する一考察:林吉田推定器におけるフォーミュラバイアスとデータ損失の解消
- Authors: Evangelos Georgiadis,
- Abstract要約: 林吉田推定器は固有のテレスコープ特性を示し、しばしば見過ごされる計算バイアスをもたらす。
本稿では,このバイアスに起因するデータ損失の形式化と定量化を試みる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Hayashi-Yoshida (\HY)-estimator exhibits an intrinsic, telescoping property that leads to an often overlooked computational bias, which we denote,formulaic or intrinsic bias. This formulaic bias results in data loss by cancelling out potentially relevant data points, the nonextant data points. This paper attempts to formalize and quantify the data loss arising from this bias. In particular, we highlight the existence of nonextant data points via a concrete example, and prove necessary and sufficient conditions for the telescoping property to induce this type of formulaic bias.Since this type of bias is nonexistent when inputs, i.e., observation times, $\Pi^{(1)} :=(t_i^{(1)})_{i=0,1,\ldots}$ and $\Pi^{(2)} :=(t_j^{(2)})_{j=0,1,\ldots}$, are synchronous, we introduce the (a,b)-asynchronous adversary. This adversary generates inputs $\Pi^{(1)}$ and $\Pi^{(2)}$ according to two independent homogenous Poisson processes with rates a>0 and b>0, respectively. We address the foundational questions regarding cumulative minimal (or least) average data point loss, and determine the values for a and b. We prove that for equal rates a=b, the minimal average cumulative data loss over both inputs is attained and amounts to 25\%. We present an algorithm, which is based on our theorem, for computing the exact number of nonextant data points given inputs $\Pi^{(1)}$ and $\Pi^{(2)}$, and suggest alternative methods. Finally, we use simulated data to empirically compare the (cumulative) average data loss of the (\HY)-estimator.
- Abstract(参考訳): 林吉田推定器は内在的、テレスコープ的特性を示し、しばしば見過ごされる計算バイアスをもたらす。
この公式バイアスは、既存のデータポイントである潜在的に関連するデータポイントをキャンセルすることで、データ損失をもたらす。
本稿では,このバイアスに起因するデータ損失の形式化と定量化を試みる。
特に、具体例による非存在データポイントの存在を強調し、この式バイアスを誘発するテレスコープ特性の必要十分条件を証明する。このタイプのバイアスは、入力時に存在しないので、例えば、$\Pi^{(1)} :=(t_i^{(1)})_{i=0,1,\ldots}$と$\Pi^{(2)} :=(t_j^{(2)})_{j=0,1,\ldots}$は同期である。
この逆元は、それぞれ a>0 と b>0 の2つの独立な同種ポアソン過程に従って $\Pi^{(1)}$ と $\Pi^{(2)}$ の入力を生成する。
累積最小(または最小)平均データポイント損失に関する基本的な問題に対処し、aとbの値を決定する。
等速a=bの場合、両入力に対する最小平均累積データ損失が達成され、25\%となることを示す。
提案するアルゴリズムは,提案する定理に基づいて,入力値$\Pi^{(1)}$および$\Pi^{(2)}$の非存在データ点の正確な数を計算し,代替手法を提案する。
最後に、シミュレーションデータを用いて、 (\HY)-推定器の平均データ損失(累積)を経験的に比較する。
関連論文リスト
- Outlier-robust Mean Estimation near the Breakdown Point via Sum-of-Squares [4.335413713700667]
我々は citekothari2018robust で導入された正準平方和プログラムを新たに解析する。
このプログラムは,すべての $varepsilon に対して[0,frac12)$ の誤差率を効率よく達成できることを示す。
論文 参考訳(メタデータ) (2024-11-21T16:57:05Z) - Statistical-Computational Trade-offs for Density Estimation [60.81548752871115]
幅広い種類のデータ構造に対して、それらの境界は著しく改善されないことを示す。
これは密度推定のための新しい統計計算トレードオフである。
論文 参考訳(メタデータ) (2024-10-30T15:03:33Z) - Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。
我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Convergence Analysis of Probability Flow ODE for Score-based Generative Models [5.939858158928473]
確率フローODEに基づく決定論的サンプリング器の収束特性を理論的・数値的両面から検討する。
連続時間レベルでは、ターゲットと生成されたデータ分布の総変動を$mathcalO(d3/4delta1/2)$で表すことができる。
論文 参考訳(メタデータ) (2024-04-15T12:29:28Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Improved Analysis of Score-based Generative Modeling: User-Friendly
Bounds under Minimal Smoothness Assumptions [9.953088581242845]
2次モーメントを持つ任意のデータ分布に対して,コンバージェンス保証と複雑性を提供する。
我々の結果は、対数共空性や機能的不等式を前提としない。
我々の理論解析は、異なる離散近似の比較を提供し、実際の離散化点の選択を導くかもしれない。
論文 参考訳(メタデータ) (2022-11-03T15:51:00Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - List-Decodable Mean Estimation in Nearly-PCA Time [50.79691056481693]
高次元におけるリストデコタブル平均推定の基本的な課題について検討する。
我々のアルゴリズムは、すべての$k = O(sqrtd) cup Omega(d)$に対して$widetildeO(ndk)$で実行されます。
我々のアルゴリズムの変種は、すべての$k$に対してランタイム$widetildeO(ndk)$を持ち、リカバリ保証の$O(sqrtlog k)$ Factorを犠牲にしている。
論文 参考訳(メタデータ) (2020-11-19T17:21:37Z) - Online Robust Regression via SGD on the l1 loss [19.087335681007477]
ストリーミング方式でデータにアクセス可能なオンライン環境において、ロバストな線形回帰問題を考察する。
この研究で、$ell_O( 1 / (1 - eta)2 n )$損失の降下は、汚染された測定値に依存しない$tildeO( 1 / (1 - eta)2 n )$レートで真のパラメータベクトルに収束することを示した。
論文 参考訳(メタデータ) (2020-07-01T11:38:21Z) - Bayesian Optimization with Missing Inputs [53.476096769837724]
我々は、よく知られたアッパー信頼境界(UCB)獲得関数に基づく新たな獲得関数を開発する。
我々は,本手法の有用性を示すために,合成アプリケーションと実世界のアプリケーションの両方について包括的な実験を行った。
論文 参考訳(メタデータ) (2020-06-19T03:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。