論文の概要: TCMI: a non-parametric mutual-dependence estimator for multivariate
continuous distributions
- arxiv url: http://arxiv.org/abs/2001.11212v3
- Date: Sat, 30 Jul 2022 09:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:01:47.066769
- Title: TCMI: a non-parametric mutual-dependence estimator for multivariate
continuous distributions
- Title(参考訳): TCMI:多変量連続分布のための非パラメトリック相互依存性推定器
- Authors: Benjamin Regler, Matthias Scheffler, Luca M. Ghiringhelli
- Abstract要約: 総累積相互情報(TCMI)は相互依存の関連性の尺度である。
TCMIは、特徴集合の比較とランキングを容易にする非パラメトリックで堅牢で決定論的尺度である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The identification of relevant features, i.e., the driving variables that
determine a process or the properties of a system, is an essential part of the
analysis of data sets with a large number of variables. A mathematical rigorous
approach to quantifying the relevance of these features is mutual information.
Mutual information determines the relevance of features in terms of their joint
mutual dependence to the property of interest. However, mutual information
requires as input probability distributions, which cannot be reliably estimated
from continuous distributions such as physical quantities like lengths or
energies. Here, we introduce total cumulative mutual information (TCMI), a
measure of the relevance of mutual dependences that extends mutual information
to random variables of continuous distribution based on cumulative probability
distributions. TCMI is a non-parametric, robust, and deterministic measure that
facilitates comparisons and rankings between feature sets with different
cardinality. The ranking induced by TCMI allows for feature selection, i.e.,
the identification of variable sets that are nonlinear statistically related to
a property of interest, taking into account the number of data samples as well
as the cardinality of the set of variables. We evaluate the performance of our
measure with simulated data, compare its performance with similar
multivariate-dependence measures, and demonstrate the effectiveness of our
feature-selection method on a set of standard data sets and a typical scenario
in materials science.
- Abstract(参考訳): 関連する特徴、すなわち、プロセスやシステムの特性を決定する駆動変数の識別は、多数の変数を持つデータセットの分析において不可欠な部分である。
これらの特徴の関連性を定量化する数学的厳密なアプローチは相互情報である。
相互情報は、利害関係に対する相互依存の観点から特徴の関連性を決定する。
しかし、相互情報は入力確率分布として必要であり、長さやエネルギーなどの物理量のような連続分布から確実に推定することはできない。
本稿では,累積確率分布に基づく連続分布の確率変数に相互情報を拡張した相互依存の関連性の尺度である total cumulative mutual information (tcmi) を提案する。
TCMIは、異なる基数を持つ特徴集合の比較とランク付けを容易にする非パラメトリックで堅牢で決定論的尺度である。
TCMIによって誘導されるランク付けは特徴選択、すなわち興味のある性質と統計的に関連づけられた変数集合の識別を可能にし、データサンプルの数と変数の集合の濃度を考慮に入れている。
本手法は,シミュレーションデータを用いて性能を評価し,類似の多変量依存性尺度と比較し,標準データセット群と材料科学における典型的なシナリオにおける特徴選択法の有効性を実証する。
関連論文リスト
- Normalization in Proportional Feature Spaces [49.48516314472825]
データ表現、特徴付け、可視化、分析、比較、分類、モデリングにおいて、正規化は重要な中心的な役割を果たす。
適切な正規化手法の選択は、関連する特徴の種類と特徴を考慮する必要がある。
論文 参考訳(メタデータ) (2024-09-17T17:46:27Z) - Towards a Unified Theory for Semiparametric Data Fusion with Individual-Level Data [1.0650780147044159]
本研究では,様々な独立した情報源からの個人レベルのデータを活用することで,滑らかな有限次元パラメータに関する推論を行うという目的に対処する。
近年の進歩により、異なるデータソースが結合対象分布の単一因数分解の条件分布の、おそらくは別個のサブセットと整合するシナリオを扱うことができる包括的理論が発展してきた。
我々は、上記の包括的理論を拡張し、対象分布の単一因数分解に対応しない条件分布に整合したソースからの個々のレベルデータの融合を可能にする。
論文 参考訳(メタデータ) (2024-09-16T04:10:44Z) - On the Properties and Estimation of Pointwise Mutual Information Profiles [49.877314063833296]
ポイントワイド相互情報プロファイル(ポイントワイド相互情報プロファイル、英: pointwise mutual information profile)は、与えられた確率変数のペアに対するポイントワイド相互情報の分布である。
そこで我々は,モンテカルロ法を用いて分布を正確に推定できる新しい分布系 Bend と Mix Models を導入する。
論文 参考訳(メタデータ) (2023-10-16T10:02:24Z) - Beyond Normal: On the Evaluation of Mutual Information Estimators [52.85079110699378]
そこで本研究では,既知の地道的相互情報を用いて,多種多様な分布群を構築する方法について述べる。
本稿では,問題の難易度に適応した適切な推定器の選択方法について,実践者のためのガイドラインを提供する。
論文 参考訳(メタデータ) (2023-06-19T17:26:34Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Opening the random forest black box by the analysis of the mutual impact
of features [0.0]
ランダム林における特徴の相互影響に着目した2つの新しいアプローチを提案する。
MFIとMIRは、機能と成果の間の複雑な関係に光を当てることを非常に約束しています。
論文 参考訳(メタデータ) (2023-04-05T15:03:46Z) - Diffeomorphic Information Neural Estimation [2.566492438263125]
Mutual Information (MI) と Conditional Mutual Information (CMI) は情報理論の多目的ツールである。
DINE (Diffomorphic Information Neural Estorimator) は連続確率変数のCMIを推定するための新しい手法である。
興味のある変数は、より単純な分布に従う適切なサロゲートに置き換えることができることを示す。
論文 参考訳(メタデータ) (2022-11-20T03:03:56Z) - Measuring Statistical Dependencies via Maximum Norm and Characteristic
Functions [0.0]
本稿では, 連接関数と積対角特性関数の差の最大ノルムに基づく統計的依存度尺度を提案する。
提案手法は、2つの異なる次元のランダムベクトル間の任意の統計的依存を検出することができる。
シミュレーションデータと実データの両方を用いて実験を行う。
論文 参考訳(メタデータ) (2022-08-16T20:24:31Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Disentanglement Analysis with Partial Information Decomposition [31.56299813238937]
不整合表現は、異なる生成因子を個別にキャプチャする複数のランダム変数にデータをマッピングすることで、プロセスを逆転させることを目的としている。
現在の遠絡測定値は、各生成因子によって条件付けられた各変数の絶対偏差、分散、エントロピーなどの濃度を測定するように設計されている。
本研究では,2つ以上の変数間の情報共有を評価するために部分情報分解フレームワークを使用し,新しいアンタングル化指標を含むフレームワークを構築する。
論文 参考訳(メタデータ) (2021-08-31T11:09:40Z) - Neural Methods for Point-wise Dependency Estimation [129.93860669802046]
我々は,2つの結果が共起する確率を定量的に測定する点依存度(PD)の推定に焦点をあてる。
提案手法の有効性を,1)MI推定,2)自己教師付き表現学習,3)クロスモーダル検索タスクで示す。
論文 参考訳(メタデータ) (2020-06-09T23:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。