論文の概要: Accurate Estimation of Mutual Information in High Dimensional Data
- arxiv url: http://arxiv.org/abs/2506.00330v2
- Date: Wed, 01 Oct 2025 14:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.604915
- Title: Accurate Estimation of Mutual Information in High Dimensional Data
- Title(参考訳): 高次元データにおける相互情報の正確な推定
- Authors: Eslam Abdelaleem, K. Michael Martini, Ilya Nemenman,
- Abstract要約: 相互情報(MI)は2つの変数間の統計的依存の基本的な尺度である。
最近の機械学習ベースの推定器は、将来性を示すが、その精度はデータセットのサイズと構造に敏感に依存する。
これらのギャップを、標準ベンチマークと新しい合成データセットで古典的および神経的MI推定器を体系的に評価することで、埋める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mutual information (MI) is a fundamental measure of statistical dependence between two variables, yet accurate estimation from finite data remains notoriously difficult. No estimator is universally reliable, and common approaches fail in the high-dimensional, undersampled regimes typical of modern experiments. Recent machine learning-based estimators show promise, but their accuracy depends sensitively on dataset size, structure, and hyperparameters, with no accepted tests to detect failures. We close these gaps through a systematic evaluation of classical and neural MI estimators across standard benchmarks and new synthetic datasets tailored to challenging high-dimensional, undersampled regimes. We contribute: (i) a practical protocol for reliable MI estimation with explicit checks for statistical consistency; (ii) confidence intervals (error bars around estimates) that existing neural MI estimator do not provide; and (iii) a new class of probabilistic critics designed for high-dimensional, high-information settings. We demonstrate the effectiveness of our protocol with computational experiments, showing that it consistently matches or surpasses existing methods while uniquely quantifying its own reliability. We show that reliable MI estimation is sometimes achievable even in severely undersampled, high-dimensional datasets, provided they admit accurate low-dimensional representations. This broadens the scope of applicability of neural MI estimators and clarifies when such estimators can be trusted.
- Abstract(参考訳): 相互情報(MI)は2つの変数間の統計的依存の基本的な尺度であるが、有限データからの正確な推定は非常に難しい。
推定器は普遍的に信頼性がなく、一般的なアプローチは、現代の実験で典型的な高次元のアンサンプされた状態において失敗する。
最近の機械学習ベースの推定器は、将来性を示すが、その精度はデータセットのサイズ、構造、ハイパーパラメータに敏感に依存し、失敗を検出するテストは受け入れられない。
これらのギャップを、標準的なベンチマークと、高次元のアンダーサンプリングされたシステマティクスに適合した新しい合成データセットにまたがって、古典的および神経的MI推定器を体系的に評価することで解決する。
コントリビューション:
一 統計的整合性の明示的なチェックを伴う信頼性MI推定のための実用的プロトコル
二 既存の神経MI推定器が提供しない信頼区間(推定周辺のエラーバー)、及び
(三)高次元高情報設定のために考案された新しい確率的批評家の類型。
計算実験により,本プロトコルの有効性を実証し,既存の手法と一貫した一致あるいは超えながら,信頼性を独自に定量化することを示した。
精度の高いMI推定は、精度の低い低次元表現を許容すれば、高度にアンサンプされた高次元データセットでも達成可能であることを示す。
これにより、ニューラルMI推定器の適用範囲を広げ、そのような推定器を信頼できるかどうかを明らかにする。
関連論文リスト
- A Survey of Dimension Estimation Methods [0.0]
データの実際の次元を理解することは重要である。
本調査では, 様々な次元推定手法を概観し, 利用した幾何学的情報を用いて分類する。
本研究は, 曲率, 騒音に対する各種応答の検討とともに, これらの手法の性能評価を行う。
論文 参考訳(メタデータ) (2025-07-18T13:05:42Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Inference for Large Scale Regression Models with Dependent Errors [3.3160726548489015]
この研究は、外因性変数を持つ一般化ウェーブレットモーメント法(GMWMX)の統計的性質を定義し、証明する。
これは、遅延依存構造や欠落データのようなデータ複雑度が存在するプロセスを用いて、線形モデルに対する推論を推定し、提供するための、高度にスケーラブルで安定で統計的に有効な方法である。
論文 参考訳(メタデータ) (2024-09-08T17:01:05Z) - Evaluation of Missing Data Analytical Techniques in Longitudinal Research: Traditional and Machine Learning Approaches [11.048092826888412]
本研究ではモンテカルロシミュレーションを用いて,成長曲線モデリングフレームワークにおけるデータ不足に対する6つの解析手法の有効性を評価・比較する。
本研究では,サンプルサイズ,データ速度の欠如,データメカニズムの欠如,データ分布がモデル推定の精度と効率に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-19T20:20:30Z) - Information Leakage Detection through Approximate Bayes-optimal Prediction [22.04308347355652]
情報漏洩(英: Information leakage, IL)とは、意図せず機密情報を無許可の当事者に漏らす情報である。
従来の統計手法は、ILを検出するために観測可能な情報と秘密情報の相互情報を推定することに依存している。
統計的学習理論と情報理論を用いて,ILの定量化と検出を正確に行う理論的枠組みを構築した。
論文 参考訳(メタデータ) (2024-01-25T16:15:27Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Conditional expectation with regularization for missing data imputation [19.254291863337347]
欠落したデータは、医学、スポーツ、ファイナンスなど、さまざまな領域のデータセットで頻繁に発生する。
正規化による損失値の条件分布に基づくインプット(DIMV)という新しいアルゴリズムを提案する。
DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。
論文 参考訳(メタデータ) (2023-02-02T06:59:15Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z) - Neural Methods for Point-wise Dependency Estimation [129.93860669802046]
我々は,2つの結果が共起する確率を定量的に測定する点依存度(PD)の推定に焦点をあてる。
提案手法の有効性を,1)MI推定,2)自己教師付き表現学習,3)クロスモーダル検索タスクで示す。
論文 参考訳(メタデータ) (2020-06-09T23:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。