論文の概要: Ranking the information content of distance measures
- arxiv url: http://arxiv.org/abs/2104.15079v1
- Date: Fri, 30 Apr 2021 15:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 14:08:42.887586
- Title: Ranking the information content of distance measures
- Title(参考訳): 距離測定の情報内容のランク付け
- Authors: Aldo Glielmo, Claudio Zeni, Bingqing Cheng, Gabor Csanyi, Alessandro
Laio
- Abstract要約: 2つの異なる距離測度を用いて保持する相対的情報を評価する統計的テストを導入する。
これにより、候補者のプールから最も情報に富んだ距離を測定することができる。
- 参考スコア(独自算出の注目度): 61.754016309475745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world data typically contain a large number of features that are often
heterogeneous in nature, relevance, and also units of measure. When assessing
the similarity between data points, one can build various distance measures
using subsets of these features. Using the fewest features but still retaining
sufficient information about the system is crucial in many statistical learning
approaches, particularly when data are sparse. We introduce a statistical test
that can assess the relative information retained when using two different
distance measures, and determine if they are equivalent, independent, or if one
is more informative than the other. This in turn allows finding the most
informative distance measure out of a pool of candidates. The approach is
applied to find the most relevant policy variables for controlling the Covid-19
epidemic and to find compact yet informative representations of atomic
structures, but its potential applications are wide ranging in many branches of
science.
- Abstract(参考訳): 実世界のデータは通常、自然、関連性、および測定単位においてしばしば不均一な多くの特徴を含む。
データポイント間の類似性を評価する場合、これらの特徴のサブセットを使用して様々な距離測定を構築することができる。
最も少ない特徴を用いるが、システムに関する十分な情報を保持することは、多くの統計的学習手法、特にデータが不足している場合において重要である。
2つの異なる距離測度を用いて保持する相対的情報を評価する統計的テストを導入し、それらが等価か独立か、あるいは一方が他方よりも情報的であるかを決定する。
これにより、候補者のプールから最も情報性の高い距離を測定することができる。
このアプローチは、Covid-19の流行を制御するための最も関連するポリシー変数を見つけ、コンパクトで情報に富む原子構造の表現を見つけるために応用されるが、その潜在的な応用は科学の多くの分野において幅広い。
関連論文リスト
- Conformal Disentanglement: A Neural Framework for Perspective Synthesis and Differentiation [0.8192907805418583]
宇宙におけるいくつかの異なる視点から、異なる時点における物体の観測を行う。
ソース間で「共通」の完全な図像を合成する必要がある。
両タスクに対応可能なニューラルネットワークオートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T18:06:45Z) - A Practical Guide to Sample-based Statistical Distances for Evaluating Generative Models in Science [7.2447605934304375]
我々は、異なる方法論を表す統計距離の4つの一般的な概念に焦点を当てる。
それぞれの距離の背後にある直感を強調し、そのメリット、スケーラビリティ、複雑さ、落とし穴を説明します。
我々は、異なる科学的領域、すなわち意思決定のモデルと医療画像の生成モデルから生成モデルを評価する。
論文 参考訳(メタデータ) (2024-03-19T11:16:14Z) - Estimation of mutual information via quantum kernel method [0.0]
相互情報(MI)の推定は,複数の確率変数間の関係を非線形相関で調査する上で重要な役割を担っている。
本稿では,量子カーネルを用いた相互情報推定手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T00:53:16Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - A general framework for implementing distances for categorical variables [0.0]
本稿では,分類変数の観測点間の距離を効率よく,透過的に実装できる汎用フレームワークを提案する。
我々のフレームワークは、非常に自然に新しい距離定式化を導入し、フレキシブル、ケース、データ固有の距離定義の実装を可能にします。
教師付き分類設定では、このフレームワークは応答変数と予測変数の関連性を含む距離を構築するのに使うことができる。
論文 参考訳(メタデータ) (2023-01-04T13:50:08Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Gaussianizing the Earth: Multidimensional Information Measures for Earth
Data Analysis [9.464720193746395]
情報理論は地球系データを解析するための優れた枠組みである。
これは不確実性と冗長性を特徴付けることができ、普遍的に解釈可能である。
様々な地球系データ解析問題において,情報理論の手法が適用可能であることを示す。
論文 参考訳(メタデータ) (2020-10-13T15:30:34Z) - Multi-Task Incremental Learning for Object Detection [71.57155077119839]
マルチタスクは、知識と計算を共有しながら、複数のタスクを学習する。
古いデータにアクセスせずに漸進的に学習すると、過去の知識を壊滅的に忘れてしまう。
論文 参考訳(メタデータ) (2020-02-13T04:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。