論文の概要: Accurate Estimation of Mutual Information in High Dimensional Data
- arxiv url: http://arxiv.org/abs/2506.00330v2
- Date: Wed, 01 Oct 2025 14:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.604915
- Title: Accurate Estimation of Mutual Information in High Dimensional Data
- Title(参考訳): 高次元データにおける相互情報の正確な推定
- Authors: Eslam Abdelaleem, K. Michael Martini, Ilya Nemenman,
- Abstract要約: 相互情報(MI)は2つの変数間の統計的依存の基本的な尺度である。
最近の機械学習ベースの推定器は、将来性を示すが、その精度はデータセットのサイズと構造に敏感に依存する。
これらのギャップを、標準ベンチマークと新しい合成データセットで古典的および神経的MI推定器を体系的に評価することで、埋める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mutual information (MI) is a fundamental measure of statistical dependence between two variables, yet accurate estimation from finite data remains notoriously difficult. No estimator is universally reliable, and common approaches fail in the high-dimensional, undersampled regimes typical of modern experiments. Recent machine learning-based estimators show promise, but their accuracy depends sensitively on dataset size, structure, and hyperparameters, with no accepted tests to detect failures. We close these gaps through a systematic evaluation of classical and neural MI estimators across standard benchmarks and new synthetic datasets tailored to challenging high-dimensional, undersampled regimes. We contribute: (i) a practical protocol for reliable MI estimation with explicit checks for statistical consistency; (ii) confidence intervals (error bars around estimates) that existing neural MI estimator do not provide; and (iii) a new class of probabilistic critics designed for high-dimensional, high-information settings. We demonstrate the effectiveness of our protocol with computational experiments, showing that it consistently matches or surpasses existing methods while uniquely quantifying its own reliability. We show that reliable MI estimation is sometimes achievable even in severely undersampled, high-dimensional datasets, provided they admit accurate low-dimensional representations. This broadens the scope of applicability of neural MI estimators and clarifies when such estimators can be trusted.
- Abstract(参考訳): 相互情報(MI)は2つの変数間の統計的依存の基本的な尺度であるが、有限データからの正確な推定は非常に難しい。
推定器は普遍的に信頼性がなく、一般的なアプローチは、現代の実験で典型的な高次元のアンサンプされた状態において失敗する。
最近の機械学習ベースの推定器は、将来性を示すが、その精度はデータセットのサイズ、構造、ハイパーパラメータに敏感に依存し、失敗を検出するテストは受け入れられない。
これらのギャップを、標準的なベンチマークと、高次元のアンダーサンプリングされたシステマティクスに適合した新しい合成データセットにまたがって、古典的および神経的MI推定器を体系的に評価することで解決する。
コントリビューション:
一 統計的整合性の明示的なチェックを伴う信頼性MI推定のための実用的プロトコル
二 既存の神経MI推定器が提供しない信頼区間(推定周辺のエラーバー)、及び
(三)高次元高情報設定のために考案された新しい確率的批評家の類型。
計算実験により,本プロトコルの有効性を実証し,既存の手法と一貫した一致あるいは超えながら,信頼性を独自に定量化することを示した。
精度の高いMI推定は、精度の低い低次元表現を許容すれば、高度にアンサンプされた高次元データセットでも達成可能であることを示す。
これにより、ニューラルMI推定器の適用範囲を広げ、そのような推定器を信頼できるかどうかを明らかにする。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - A Survey of Dimension Estimation Methods [0.0]
データの実際の次元を理解することは重要である。
本調査では, 様々な次元推定手法を概観し, 利用した幾何学的情報を用いて分類する。
本研究は, 曲率, 騒音に対する各種応答の検討とともに, これらの手法の性能評価を行う。
論文 参考訳(メタデータ) (2025-07-18T13:05:42Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Inference for Large Scale Regression Models with Dependent Errors [3.3160726548489015]
この研究は、外因性変数を持つ一般化ウェーブレットモーメント法(GMWMX)の統計的性質を定義し、証明する。
これは、遅延依存構造や欠落データのようなデータ複雑度が存在するプロセスを用いて、線形モデルに対する推論を推定し、提供するための、高度にスケーラブルで安定で統計的に有効な方法である。
論文 参考訳(メタデータ) (2024-09-08T17:01:05Z) - Non-Asymptotic Uncertainty Quantification in High-Dimensional Learning [5.318766629972959]
不確かさの定量化は多くの高次元回帰や学習問題において決定的だが難しい課題である。
我々は、古典的回帰アプローチとニューラルネットワークの両方に適用可能な、回帰におけるUQのための新しいデータ駆動アプローチを開発した。
論文 参考訳(メタデータ) (2024-07-18T16:42:10Z) - Evaluation of Missing Data Analytical Techniques in Longitudinal Research: Traditional and Machine Learning Approaches [11.048092826888412]
本研究ではモンテカルロシミュレーションを用いて,成長曲線モデリングフレームワークにおけるデータ不足に対する6つの解析手法の有効性を評価・比較する。
本研究では,サンプルサイズ,データ速度の欠如,データメカニズムの欠如,データ分布がモデル推定の精度と効率に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-19T20:20:30Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Information Leakage Detection through Approximate Bayes-optimal Prediction [22.04308347355652]
情報漏洩(英: Information leakage, IL)とは、意図せず機密情報を無許可の当事者に漏らす情報である。
従来の統計手法は、ILを検出するために観測可能な情報と秘密情報の相互情報を推定することに依存している。
統計的学習理論と情報理論を用いて,ILの定量化と検出を正確に行う理論的枠組みを構築した。
論文 参考訳(メタデータ) (2024-01-25T16:15:27Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Conditional expectation with regularization for missing data imputation [19.254291863337347]
欠落したデータは、医学、スポーツ、ファイナンスなど、さまざまな領域のデータセットで頻繁に発生する。
正規化による損失値の条件分布に基づくインプット(DIMV)という新しいアルゴリズムを提案する。
DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。
論文 参考訳(メタデータ) (2023-02-02T06:59:15Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Better Uncertainty Quantification for Machine Translation Evaluation [17.36759906285316]
我々は、新しい異種回帰、発散最小化、および直接不確実性予測目標を用いてCOMETメトリックを訓練する。
実験の結果、WMT20とWMT21のメトリクスタスクデータセットが改善され、計算コストが大幅に削減された。
論文 参考訳(メタデータ) (2022-04-13T17:49:25Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z) - DEMI: Discriminative Estimator of Mutual Information [5.248805627195347]
連続確率変数間の相互情報を推定することは、高次元データにとってしばしば難解で困難である。
近年の進歩は、相互情報の変動的下界を最適化するためにニューラルネットワークを活用している。
提案手法は,データサンプルペアが結合分布から引き出される確率を提供する分類器の訓練に基づく。
論文 参考訳(メタデータ) (2020-10-05T04:19:27Z) - Probabilistic Neighbourhood Component Analysis: Sample Efficient
Uncertainty Estimation in Deep Learning [25.8227937350516]
トレーニングデータの量が少ない場合,最先端のBNNとDeep Ensembleモデルの不確実性推定能力は著しく低下することを示す。
サンプル効率の高い非パラメトリックkNN手法の確率的一般化を提案する。
我々のアプローチは、深いkNNがその予測において根底にある不確かさを正確に定量化することを可能にする。
論文 参考訳(メタデータ) (2020-07-18T21:36:31Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Neural Methods for Point-wise Dependency Estimation [129.93860669802046]
我々は,2つの結果が共起する確率を定量的に測定する点依存度(PD)の推定に焦点をあてる。
提案手法の有効性を,1)MI推定,2)自己教師付き表現学習,3)クロスモーダル検索タスクで示す。
論文 参考訳(メタデータ) (2020-06-09T23:26:15Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。