論文の概要: Linear cost mutual information estimation and independence test of similar performance as HSIC
- arxiv url: http://arxiv.org/abs/2508.18338v1
- Date: Mon, 25 Aug 2025 13:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.535086
- Title: Linear cost mutual information estimation and independence test of similar performance as HSIC
- Title(参考訳): HSICと同様の性能の線形コスト相互情報推定と独立性試験
- Authors: Jarek Duda, Jagoda Bracha, Adrian Przybysz,
- Abstract要約: 2つのデータサンプル間の統計的依存関係の評価は、データサイエンス/機械学習の基本的な問題である。
サイズ$n$データサンプルには$ntimes n$行列の乗算が必要です。
我々は,HCRを,テストにおける高い依存性感度の線形コスト実用的な代替手段として論じる。
- 参考スコア(独自算出の注目度): 0.17478203318226307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of statistical dependencies between two data samples is a basic problem of data science/machine learning, and HSIC (Hilbert-Schmidt Information Criterion)~\cite{HSIC} is considered the state-of-art method. However, for size $n$ data sample it requires multiplication of $n\times n$ matrices, what currently needs $\sim O(n^{2.37})$ computational complexity~\cite{mult}, making it impractical for large data samples. We discuss HCR (Hierarchical Correlation Reconstruction) as its linear cost practical alternative of even higher dependence sensitivity in tests, and additionally providing actual joint distribution model by description of dependencies through features being mixed moments, starting with correlation and homoscedasticity, also allowing to approximate mutual information as just sum of squares of such nontrivial mixed moments between two data samples. Such single dependence describing feature is calculated in $O(n)$ linear time. Their number to test varies with dimension $d$ - requiring $O(d^2)$ for pairwise dependencies, $O(d^3)$ if wanting to also consider more subtle triplewise, and so on.
- Abstract(参考訳): 2つのデータサンプル間の統計的依存関係の評価は、データサイエンス/機械学習の基本的な問題であり、HSIC(Hilbert-Schmidt Information Criterion)~\cite{HSIC}は最先端の手法であると考えられている。
しかし、$n$データサンプルの場合、現在の$\sim O(n^{2.37})$計算複雑性~\cite{mult} を必要とするため、大規模なデータサンプルでは実用的ではない。
我々は,HCR(階層的相関再構成)を,テストの依存性感度をさらに高めるための線形コストの実用的な代替手段として論じるとともに,関係性と相似性から始まる相似モーメントを特徴とする依存性記述による実際の共同分布モデルを提供し,また,相互情報を2つのデータサンプル間の非自明な混合モーメントの2乗の和として近似することを可能にする。
このような単一の依存性を記述する特徴は、$O(n)$リニア時間で計算される。
テスト対象の値は,2つの依存関係に対して$O(d^2)$,$O(d^3)$,さらに微妙なトリプルワイズを考慮したい場合は$O(d^3)$など,それぞれ異なる。
関連論文リスト
- An inferential measure of dependence between two systems using Bayesian model comparison [3.683202928838613]
$X$ と $Y$ in $D$ の依存度は $B(X,Y|D)$ と定量化される。
ベイズフレームワークを用いた結果、および$B(X,Y|D)$と相互情報との類似点と相違点について論じる。
論文 参考訳(メタデータ) (2024-12-09T13:28:19Z) - Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しいパラダイムを提案する。
提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Collaborative non-parametric two-sample testing [55.98760097296213]
目標は、null仮説の$p_v = q_v$が拒否されるノードを特定することである。
グラフ構造を効率的に活用する非パラメトリックコラボレーティブ2サンプルテスト(CTST)フレームワークを提案する。
提案手法は,f-divergence Estimation, Kernel Methods, Multitask Learningなどの要素を統合する。
論文 参考訳(メタデータ) (2024-02-08T14:43:56Z) - EM for Mixture of Linear Regression with Clustered Data [6.948976192408852]
分散データにおけるクラスタ構造をどのように活用して学習手法を改善するかについて議論する。
我々は、既知の期待値最大化(EM)法を用いて、依存サンプルの$m$バッチから最大値パラメータを推定する。
構造化データ上のEMが適切であれば、$m$が$eo(n)$になる限り、同じ統計的精度に達するのに$O(1)$しか必要としないことを示す。
論文 参考訳(メタデータ) (2023-08-22T15:47:58Z) - An Online Riemannian PCA for Stochastic Canonical Correlation Analysis [37.8212762083567]
投影行列の再パラメータ化を用いた正準相関解析(CCA)のための効率的なアルゴリズム(RSG+)を提案する。
本論文は,その特性の定式化と技術的解析に主眼を置いているが,本実験により,一般的なデータセットに対する経験的挙動が極めて有望であることが確認された。
論文 参考訳(メタデータ) (2021-06-08T23:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。