論文の概要: Approximating mutual information of high-dimensional variables using learned representations
- arxiv url: http://arxiv.org/abs/2409.02732v1
- Date: Tue, 3 Sep 2024 16:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 17:55:43.321679
- Title: Approximating mutual information of high-dimensional variables using learned representations
- Title(参考訳): 学習表現を用いた高次元変数の相互情報の近似
- Authors: Gokul Gowri, Xiao-Kang Lun, Allon M. Klein, Peng Yin,
- Abstract要約: 相互情報(英: Mutual Information、MI)は、科学全般に広く応用されている統計的依存の一般的な尺度である。
既存の手法では、MIを数十次元まで確実に推定できるが、十分なサンプルサイズが実現不可能な高次元では失敗する。
我々は,理論上動機付けされたモデルアーキテクチャで学習した低次元表現に対して,非MI推定器を適用した潜在MI(LMI)近似を開発した。
- 参考スコア(独自算出の注目度): 1.4218223473363274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mutual information (MI) is a general measure of statistical dependence with widespread application across the sciences. However, estimating MI between multi-dimensional variables is challenging because the number of samples necessary to converge to an accurate estimate scales unfavorably with dimensionality. In practice, existing techniques can reliably estimate MI in up to tens of dimensions, but fail in higher dimensions, where sufficient sample sizes are infeasible. Here, we explore the idea that underlying low-dimensional structure in high-dimensional data can be exploited to faithfully approximate MI in high-dimensional settings with realistic sample sizes. We develop a method that we call latent MI (LMI) approximation, which applies a nonparametric MI estimator to low-dimensional representations learned by a simple, theoretically-motivated model architecture. Using several benchmarks, we show that unlike existing techniques, LMI can approximate MI well for variables with $> 10^3$ dimensions if their dependence structure has low intrinsic dimensionality. Finally, we showcase LMI on two open problems in biology. First, we approximate MI between protein language model (pLM) representations of interacting proteins, and find that pLMs encode non-trivial information about protein-protein interactions. Second, we quantify cell fate information contained in single-cell RNA-seq (scRNA-seq) measurements of hematopoietic stem cells, and find a sharp transition during neutrophil differentiation when fate information captured by scRNA-seq increases dramatically.
- Abstract(参考訳): 相互情報(英: Mutual Information、MI)は、科学全般に広く応用されている統計的依存の一般的な尺度である。
しかし,多次元変数間のMI推定は,精度の高い推定尺度に収束するために必要なサンプルの数が,次元性に不利な結果をもたらすため,困難である。
実際には、既存の手法は、数十次元までのMIを確実に推定できるが、十分なサンプルサイズが実現不可能な高次元では失敗する。
本稿では,高次元データにおける下層の低次元構造を有効利用して,実測値の高次元設定におけるMIを忠実に近似できるという考えを考察する。
そこで我々は,非パラメトリックMI推定器を,シンプルな理論的動機付けモデルアーキテクチャで学習した低次元表現に適用した潜在MI近似 (LMI) 法を開発した。
いくつかのベンチマークを用いて、LMIは従来の手法とは異なり、従属構造が内在次元が低い場合、$>10^3$の変数に対してMIをうまく近似できることを示した。
最後に,生物学における2つのオープンな問題についてLMIを紹介する。
まず、相互作用するタンパク質のタンパク質言語モデル(pLM)表現間のMIを近似し、pLMがタンパク質とタンパク質の相互作用に関する非自明な情報を符号化していることを示す。
第2に、造血幹細胞の単細胞RNA-seq(scRNA-seq)測定に含まれる細胞運命情報を定量化し、scRNA-seqによって捕捉された細胞運命情報が劇的に増加すると好中球分化が急激な遷移を示す。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Max-Sliced Mutual Information [17.667315953598788]
高次元の確率変数間の依存性の定量化は、統計的学習と推論の中心である。
2つの古典的手法は正準相関解析 (CCA) であり、これは元の変数の最大相関型を識別するものであり、シャノンの相互情報は普遍的依存度である。
本研究は、最大スライシング相互情報(mSMI)と呼ばれるCCAのスケーラブルな情報理論の一般化という形で中間層を提案する。
論文 参考訳(メタデータ) (2023-09-28T06:49:25Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Semiparametric Language Models Are Scalable Continual Learners [83.74414880208334]
セミパラメトリック言語モデル(LM)は、新しいテキストデータから継続的に学習する上で有望であることを示す。
Selective Memorization(SeMem)と呼ばれるシンプルで直感的なアプローチを提案する。
SeMemは、モデルが苦労する可能性のある難しいサンプルのみを記憶している。
論文 参考訳(メタデータ) (2023-03-02T17:15:02Z) - Diffeomorphic Information Neural Estimation [2.566492438263125]
Mutual Information (MI) と Conditional Mutual Information (CMI) は情報理論の多目的ツールである。
DINE (Diffomorphic Information Neural Estorimator) は連続確率変数のCMIを推定するための新しい手法である。
興味のある変数は、より単純な分布に従う適切なサロゲートに置き換えることができることを示す。
論文 参考訳(メタデータ) (2022-11-20T03:03:56Z) - A robust estimator of mutual information for deep learning
interpretability [2.574652392763709]
本稿では,離散的かつ連続的な設定にも適用可能なアルゴリズムGMM-MIを提案する。
我々は,GMM-MIを具体的真理MIが知られている玩具データに基づいて広範囲に検証する。
次に、表現学習の文脈におけるMI推定器の使用例を示す。
論文 参考訳(メタデータ) (2022-10-31T18:00:02Z) - k-Sliced Mutual Information: A Quantitative Study of Scalability with
Dimension [21.82863736290358]
元のSMI定義を$k$-SMIに拡張し、射影を$k$-次元部分空間とする。
2-ワッサーシュタイン計量における微分エントロピーの連続性に関する新しい結果を用いて、モンテカルロ(MC)に基づく推定値の k$-SMI の誤差の鋭い境界を導出する。
次に、MC積分器とニューラルネットワーク推定フレームワークを組み合わせて、エンドツーエンドの$k$-SMI推定器を提供する。
論文 参考訳(メタデータ) (2022-06-17T03:19:55Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Information Theory Measures via Multidimensional Gaussianization [7.788961560607993]
情報理論は、データやシステムの不確実性、依存、関連性を測定するための優れたフレームワークである。
現実世界の応用にはいくつかの望ましい性質がある。
しかし,多次元データから情報を取得することは,次元性の呪いによる難題である。
論文 参考訳(メタデータ) (2020-10-08T07:22:16Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。