論文の概要: Accurate Estimation of Mutual Information in High Dimensional Data
- arxiv url: http://arxiv.org/abs/2506.00330v1
- Date: Sat, 31 May 2025 01:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.782659
- Title: Accurate Estimation of Mutual Information in High Dimensional Data
- Title(参考訳): 高次元データにおける相互情報の正確な推定
- Authors: Eslam Abdelaleem, K. Michael Martini, Ilya Nemenman,
- Abstract要約: 相互情報(英: Mutual Information、MI)は、2つの変数間の統計的依存関係の尺度である。
近年,有望な機械学習に基づくMI推定手法が出現している。
信頼性と統計的整合性を保証する明示的なチェックを含むMI推定のためのプロトコルを提案し,検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mutual information (MI) is a measure of statistical dependencies between two variables, widely used in data analysis. Thus, accurate methods for estimating MI from empirical data are crucial. Such estimation is a hard problem, and there are provably no estimators that are universally good for finite datasets. Common estimators struggle with high-dimensional data, which is a staple of modern experiments. Recently, promising machine learning-based MI estimation methods have emerged. Yet it remains unclear if and when they produce accurate results, depending on dataset sizes, statistical structure of the data, and hyperparameters of the estimators, such as the embedding dimensionality or the duration of training. There are also no accepted tests to signal when the estimators are inaccurate. Here, we systematically explore these gaps. We propose and validate a protocol for MI estimation that includes explicit checks ensuring reliability and statistical consistency. Contrary to accepted wisdom, we demonstrate that reliable MI estimation is achievable even with severely undersampled, high-dimensional datasets, provided these data admit accurate low-dimensional representations. These findings broaden the potential use of machine learning-based MI estimation methods in real-world data analysis and provide new insights into when and why modern high-dimensional, self-supervised algorithms perform effectively.
- Abstract(参考訳): 相互情報(英: Mutual Information、MI)は、2つの変数間の統計的依存関係の尺度である。
このように、実験データからMIを推定する正確な方法が重要である。
このような推定は難しい問題であり、有限データセットに対して普遍的に良い推定器が存在しないことは確実である。
一般的な推定器は、現代の実験の基盤となる高次元データに苦しむ。
近年,有望な機械学習に基づくMI推定手法が出現している。
しかし、データセットのサイズ、データの統計構造、埋め込み次元やトレーニング期間などの推定値のハイパーパラメータによって、正確な結果が得られるかどうかは不明だ。
また、推定器が不正確な場合に通知する承認されたテストも存在しない。
ここでは、これらのギャップを体系的に探求する。
信頼性と統計的整合性を保証する明示的なチェックを含むMI推定のためのプロトコルを提案し,検証する。
受け入れられた知恵とは対照的に、精度の高いMI推定は、非常にアンサンプされた高次元データセットであっても達成可能であることを示す。
これらの知見は、実世界のデータ分析における機械学習に基づくMI推定手法の可能性を広げ、現代の高次元自己教師型アルゴリズムが効果的に機能する時期と理由に関する新たな洞察を提供する。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Inference for Large Scale Regression Models with Dependent Errors [3.3160726548489015]
この研究は、外因性変数を持つ一般化ウェーブレットモーメント法(GMWMX)の統計的性質を定義し、証明する。
これは、遅延依存構造や欠落データのようなデータ複雑度が存在するプロセスを用いて、線形モデルに対する推論を推定し、提供するための、高度にスケーラブルで安定で統計的に有効な方法である。
論文 参考訳(メタデータ) (2024-09-08T17:01:05Z) - Information Leakage Detection through Approximate Bayes-optimal Prediction [22.04308347355652]
情報漏洩(英: Information leakage, IL)とは、意図せず機密情報を無許可の当事者に漏らす情報である。
従来の統計手法は、ILを検出するために観測可能な情報と秘密情報の相互情報を推定することに依存している。
統計的学習理論と情報理論を用いて,ILの定量化と検出を正確に行う理論的枠組みを構築した。
論文 参考訳(メタデータ) (2024-01-25T16:15:27Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Conditional expectation with regularization for missing data imputation [19.254291863337347]
欠落したデータは、医学、スポーツ、ファイナンスなど、さまざまな領域のデータセットで頻繁に発生する。
正規化による損失値の条件分布に基づくインプット(DIMV)という新しいアルゴリズムを提案する。
DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。
論文 参考訳(メタデータ) (2023-02-02T06:59:15Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。