論文の概要: A smoothed-Bayesian approach to frequency recovery from sketched data
- arxiv url: http://arxiv.org/abs/2309.15408v3
- Date: Thu, 28 Nov 2024 13:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:14:48.485781
- Title: A smoothed-Bayesian approach to frequency recovery from sketched data
- Title(参考訳): スケッチデータからの周波数回復のためのスムーズなベイズ的アプローチ
- Authors: Mario Beraha, Stefano Favaro, Matteo Sesia,
- Abstract要約: 計算機科学と情報理論の交わりにおける古典的問題に関する新しい統計的視点を提供する。
ランダムハッシュを用いて得られた圧縮表現やスケッチのみを用いて,大規模な離散データセットにおけるシンボルの実証周波数を復元する。
- 参考スコア(独自算出の注目度): 16.16733806935934
- License:
- Abstract: We provide a novel statistical perspective on a classical problem at the intersection of computer science and information theory: recovering the empirical frequency of a symbol in a large discrete dataset using only a compressed representation, or sketch, obtained via random hashing. Departing from traditional algorithmic approaches, recent works have proposed Bayesian nonparametric (BNP) methods that can provide more informative frequency estimates by leveraging modeling assumptions about the distribution of the sketched data. In this paper, we propose a smoothed-Bayesian method, inspired by existing BNP approaches but designed in a frequentist framework to overcome the computational limitations of the BNP approaches when dealing with large-scale data from realistic distributions, including those with power-law tail behaviors. For sketches obtained with a single hash function, our approach is supported by rigorous frequentist properties, including unbiasedness and optimality under a squared error loss function within an intuitive class of linear estimators. For sketches with multiple hash functions, we introduce an approach based on multi-view learning to construct computationally efficient frequency estimators. We validate our method on synthetic and real data, comparing its performance to that of existing alternatives.
- Abstract(参考訳): 本稿では,コンピュータ科学と情報理論の交点における古典的問題に関する新しい統計的視点として,圧縮された表現のみを用いて,大規模な離散データセットにおいてシンボルの経験的頻度を復元する,あるいはランダムハッシュを用いて得られるスケッチを提案する。
従来のアルゴリズムアプローチとは別に、近年の研究では、スケッチされたデータの分布に関するモデリング仮定を活用することで、より有益な周波数推定を提供するベイズ非パラメトリック(BNP)手法が提案されている。
本稿では,既存のBNPアプローチにインスパイアされたスムーズなベイズ的手法を提案するが,実測的な分布からの大規模データを扱う場合のBNPアプローチの計算限界を克服する頻繁なフレームワークとして設計されている。
一つのハッシュ関数で得られたスケッチに対して、線形推定器の直感的なクラス内での2乗誤差損失関数の下での非バイアス性や最適性を含む厳密な頻繁性をサポートする。
複数のハッシュ関数を持つスケッチに対して、計算効率の良い周波数推定器を構築するために、マルチビュー学習に基づくアプローチを導入する。
提案手法を合成データと実データで検証し,その性能を既存の代替品と比較した。
関連論文リスト
- Linear-cost unbiased posterior estimates for crossed effects and matrix factorization models via couplings [0.0]
我々はブロックされたギブスサンプルラー(BGS)のカップリングに基づくマルコフ連鎖モンテカルロスキームの設計と解析を行う。
本手法は,条件付き独立ブロックを有する高次元BGSに対して設計および適用可能である。
論文 参考訳(メタデータ) (2024-10-11T16:05:01Z) - Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。
そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文 参考訳(メタデータ) (2024-09-26T08:46:48Z) - Bayesian Cramér-Rao Bound Estimation with Score-Based Models [3.4480437706804503]
ベイジアンクラム・ラオ境界(英語版)(英: Bayesian Cram'er-Rao bound, CRB)は、任意のベイジアン推定器の平均二乗誤差に対する下界を与える。
本研究は,スコアマッチングを用いたCRBのための新しいデータ駆動推定手法を提案する。
論文 参考訳(メタデータ) (2023-09-28T00:22:21Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Optimal Algorithms for the Inhomogeneous Spiked Wigner Model [89.1371983413931]
不均一な問題に対する近似メッセージパッシングアルゴリズム(AMP)を導出する。
特に,情報理論の閾値よりも大きい信号と雑音の比を必要とする既知のアルゴリズムが,ランダムよりも優れた処理を行うための統計的・計算的ギャップの存在を同定する。
論文 参考訳(メタデータ) (2023-02-13T19:57:17Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Robust leave-one-out cross-validation for high-dimensional Bayesian
models [0.0]
レリーブ・ワン・アウト・クロスバリデーション (LOO-CV) は、アウト・オブ・サンプル予測精度を推定するための一般的な手法である。
そこで本研究では,LOO-CV基準を計算するための新しい混合推定器を提案し,解析する。
提案手法は古典的手法の単純さと計算的利便性を保ちながら, 得られた推定値の有限分散を保証している。
論文 参考訳(メタデータ) (2022-09-19T17:14:52Z) - Efficient semidefinite-programming-based inference for binary and
multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。
一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文 参考訳(メタデータ) (2020-12-04T15:36:29Z) - Remaining Useful Life Estimation Under Uncertainty with Causal GraphNets [0.0]
時系列モデルの構築とトレーニングのための新しいアプローチを提案する。
提案手法は,非定常時系列の予測モデル構築に適している。
論文 参考訳(メタデータ) (2020-11-23T21:28:03Z) - Frequency Estimation in Data Streams: Learning the Optimal Hashing
Scheme [3.7565501074323224]
本稿では,最適化と機械学習に基づくデータストリームの周波数推定問題に対する新しいアプローチを提案する。
提案手法は、観測されたストリームプレフィックスをほぼ最適にハッシュ要素に利用し、ターゲット周波数分布を圧縮する。
提案手法は, 推定誤差の平均(要素単位)と推定誤差の平均(要素単位)で1~2桁, 予測誤差で45~90%の精度で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-07-17T22:15:22Z) - Learned Factor Graphs for Inference from Stationary Time Sequences [107.63351413549992]
定常時間列のためのモデルベースアルゴリズムとデータ駆動型MLツールを組み合わせたフレームワークを提案する。
ニューラルネットワークは、時系列の分布を記述する因子グラフの特定のコンポーネントを別々に学習するために開発された。
本稿では,学習された定常因子グラフに基づく推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-05T07:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。