論文の概要: Large-scale entity resolution via microclustering Ewens--Pitman random partitions
- arxiv url: http://arxiv.org/abs/2507.18101v1
- Date: Thu, 24 Jul 2025 05:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.012344
- Title: Large-scale entity resolution via microclustering Ewens--Pitman random partitions
- Title(参考訳): マイクロクラスタリングによる大規模実体分解--Pitmanランダムパーティション
- Authors: Mario Beraha, Stefano Favaro,
- Abstract要約: 本研究では, ランダム分割のためのマイクロクラスタリングEwens-Pitmanモデルを紹介し, サンプルサイズと線形にEwens-Pitmanモデルの強度パラメータをスケーリングすることによって得られた。
Ewens-Pitman のランダムパーティションと Pitman-Yor プロセスの相互作用を活用することで,エンティティ分解における後続計算のための効率的な変分推論スキームを開発する。
- 参考スコア(独自算出の注目度): 10.305294861313037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the microclustering Ewens--Pitman model for random partitions, obtained by scaling the strength parameter of the Ewens--Pitman model linearly with the sample size. The resulting random partition is shown to have the microclustering property, namely: the size of the largest cluster grows sub-linearly with the sample size, while the number of clusters grows linearly. By leveraging the interplay between the Ewens--Pitman random partition with the Pitman--Yor process, we develop efficient variational inference schemes for posterior computation in entity resolution. Our approach achieves a speed-up of three orders of magnitude over existing Bayesian methods for entity resolution, while maintaining competitive empirical performance.
- Abstract(参考訳): 本研究では, ランダム分割のためのマイクロクラスタリングEwens-Pitmanモデルを紹介し, サンプルサイズと線形にEwens-Pitmanモデルの強度パラメータをスケーリングすることによって得られた。
結果として生じるランダムパーティションは、マイクロクラスタリング特性、すなわち、最大のクラスタのサイズはサンプルサイズとサブ線形に増加し、クラスタの数は線形に増加する。
Ewens-Pitman のランダムパーティションと Pitman-Yor プロセスの相互作用を活用することで,エンティティ分解における後続計算のための効率的な変分推論スキームを開発する。
提案手法は,既存のベイズ法よりも3桁の高速化を実現し,競争実証性能を維持した。
関連論文リスト
- Self-supervised Latent Space Optimization with Nebula Variational Coding [87.20343320266215]
本稿では,クラスタ化埋め込みに繋がる変分推論モデルを提案する。
textbfnebula anchorsと呼ばれる潜伏空間に新たな変数を導入し、トレーニング中に潜伏変数がクラスタを形成するように誘導する。
各潜在機能は最も近いアンカーでラベル付けできるため、クラスタ間の分離をより明確にするために、自己教師付き方法でメートル法学習を適用することも提案する。
論文 参考訳(メタデータ) (2025-06-02T08:13:32Z) - A spectral clustering-type algorithm for the consistent estimation of the Hurst distribution in moderately high dimensions [8.829673021172587]
我々は,高次元フラクタルシステムに基づくHurst分布の統計的同定のためのアルゴリズムを構築した。
寸法、サンプルサイズ、スケールが無限大となる適度な高次元状態において、アルゴリズムは一貫してハースト分布を推定することを示す。
本研究では,実世界のマクロ経済時系列の分析にアルゴリズムを適用し,統合の証拠を明らかにする。
論文 参考訳(メタデータ) (2025-01-30T03:34:08Z) - Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling [22.256068524699472]
本研究では,これらの問題に対処するために,Annealed Importance Smpling (AIS)アプローチを提案する。
シークエンシャルモンテカルロサンプリング器とVIの強度を組み合わせることで、より広い範囲の後方分布を探索し、徐々にターゲット分布に接近する。
実験結果から,本手法はより厳密な変動境界,高い対数類似度,より堅牢な収束率で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-13T08:09:05Z) - A Bayesian Approach Toward Robust Multidimensional Ellipsoid-Specific Fitting [0.0]
本研究は, ノイズおよび外周波の汚染における散乱データに多次元楕円体を適合させる, 新規で効果的な方法を提案する。
楕円体領域内でのプリミティブパラメータの探索を制約するために、均一な事前分布を組み込む。
本研究では, 顕微鏡細胞計数, 3次元再構成, 幾何学的形状近似, 磁力計の校正タスクなど, 幅広い応用に応用する。
論文 参考訳(メタデータ) (2024-07-27T14:31:51Z) - On the Computational Complexity of Private High-dimensional Model Selection [18.964255744068122]
プライバシー制約下での高次元疎線形回帰モデルにおけるモデル選択の問題点を考察する。
本稿では, 効率的なメトロポリス・ハスティングスアルゴリズムを提案し, 一定の規則性条件下では, 定常分布への混合時間を享受できることを確かめる。
論文 参考訳(メタデータ) (2023-10-11T19:53:15Z) - High-dimensional variable clustering based on maxima of a weakly dependent random process [1.1999555634662633]
本稿では,Asymptotic Independent Block (AI-block)モデルと呼ばれる,変数クラスタリングのための新しいモデルのクラスを提案する。
このモデルのクラスは特定可能であり、つまり、分割の間に部分的な順序を持つ極大要素が存在し、統計的推測が可能であることを意味する。
また,変数のクラスタを列挙するチューニングパラメータに依存するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-02T08:24:26Z) - Variable Clustering via Distributionally Robust Nodewise Regression [7.289979396903827]
可変クラスタリングのための多要素ブロックモデルについて検討し、ノード単位回帰の分布的ロバストなバージョンを定式化することにより、正規化サブスペースクラスタリングに接続する。
我々は凸緩和を導出し、ロバスト領域のサイズを選択するためのガイダンスを与え、そのためデータに基づいて正規化重み付けパラメータを提案し、実装のためのADMMアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-15T16:23:25Z) - Counting Like Human: Anthropoid Crowd Counting on Modeling the
Similarity of Objects [92.80955339180119]
メインストリームの群衆計数法は 密度マップを補強して 計数結果を得るために統合する。
これに触発された我々は,合理的かつ人為的な集団カウントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-02T07:00:53Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。
提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文 参考訳(メタデータ) (2020-06-24T17:53:53Z) - Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。
我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。
また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-02-16T09:01:18Z) - Distributed Sketching Methods for Privacy Preserving Regression [54.51566432934556]
ランダム化されたスケッチを利用して、問題の次元を減らし、プライバシを保ち、非同期分散システムにおけるストラグラーレジリエンスを改善します。
従来のスケッチ手法に対する新しい近似保証を導出し、分散スケッチにおけるパラメータ平均化の精度を解析する。
大規模実験によるサーバレスコンピューティングプラットフォームにおける分散スケッチのパフォーマンスについて説明する。
論文 参考訳(メタデータ) (2020-02-16T08:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。