論文の概要: Automatic feature selection and weighting in molecular systems using Differentiable Information Imbalance
- arxiv url: http://arxiv.org/abs/2411.00851v2
- Date: Mon, 30 Dec 2024 15:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:24.900033
- Title: Automatic feature selection and weighting in molecular systems using Differentiable Information Imbalance
- Title(参考訳): 微分情報不均衡を用いた分子系の機能選択と重み付け
- Authors: Romina Wild, Felix Wodaczek, Vittorio Del Tatto, Bingqing Cheng, Alessandro Laio,
- Abstract要約: 微分情報不均衡 (DII) は特徴集合間の情報内容をランク付けする自動手法である。
基底真理特徴空間における距離を用いて、DIIはこれらの関係を最もよく保存する特徴の低次元の部分集合を特定する。
DIIはスパース解を生成し、縮小された特徴空間の最適サイズを決定する。
- 参考スコア(独自算出の注目度): 41.452380773977154
- License:
- Abstract: Feature selection is essential in the analysis of molecular systems and many other fields, but several uncertainties remain: What is the optimal number of features for a simplified, interpretable model that retains essential information? How should features with different units be aligned, and how should their relative importance be weighted? Here, we introduce the Differentiable Information Imbalance (DII), an automated method to rank information content between sets of features. Using distances in a ground truth feature space, DII identifies a low-dimensional subset of features that best preserves these relationships. Each feature is scaled by a weight, which is optimized by minimizing the DII through gradient descent. This allows simultaneously performing unit alignment and relative importance scaling, while preserving interpretability. DII can also produce sparse solutions and determine the optimal size of the reduced feature space. We demonstrate the usefulness of this approach on two benchmark molecular problems: (1) identifying collective variables that describe conformations of a biomolecule, and (2) selecting features for training a machine-learning force field. These results show the potential of DII in addressing feature selection challenges and optimizing dimensionality in various applications. The method is available in the Python library DADApy.
- Abstract(参考訳): 分子系や他の多くの分野の分析には特徴選択が不可欠であるが、いくつかの不確実性は残る: 本質的な情報を保持する単純化された解釈可能なモデルに最適な特徴数は何ですか?
異なるユニットを持つ機能をどのように調整し、相対的な重要性を重み付けすべきか?
本稿では,特徴集合間で情報内容をランク付けする自動手法であるDII(Dariable Information Im Balance)を紹介する。
基底真理特徴空間における距離を用いて、DIIはこれらの関係を最もよく保存する特徴の低次元の部分集合を特定する。
それぞれの特徴は重みによって拡張され、DIIを勾配降下によって最小化することで最適化される。
これにより、解釈可能性を維持しながら、ユニットアライメントと相対的に重要なスケーリングを同時に実行することが可能になる。
DIIはまたスパース解を生成でき、縮小された特徴空間の最適サイズを決定することができる。
本手法は,(1)生体分子の配座を記述した集合変数の同定,(2)機械学習力場を訓練するための特徴の抽出,という2つのベンチマーク分子問題に対して有用性を示す。
これらの結果は,特徴選択問題に対処し,様々な応用において次元性を最適化する上でのDIIの可能性を示している。
このメソッドはPythonライブラリのDADApyで利用できる。
関連論文リスト
- Nonlinear Feature Aggregation: Two Algorithms driven by Theory [45.3190496371625]
現実世界の機械学習アプリケーションは、膨大な機能によって特徴付けられ、計算やメモリの問題を引き起こす。
一般集約関数を用いて特徴量の非線形変換を集約する次元還元アルゴリズム(NonLinCFA)を提案する。
また、アルゴリズムを合成および実世界のデータセット上でテストし、回帰および分類タスクを実行し、競合性能を示す。
論文 参考訳(メタデータ) (2023-06-19T19:57:33Z) - Selecting Features by their Resilience to the Curse of Dimensionality [0.0]
実世界のデータセットは、しばしば高次元であり、次元性の呪いによって影響される。
ここでは、異なるサイズのデータサブセットを識別できる特徴を識別する新しい手法について述べる。
実験の結果,提案手法は競争力があり,確立された特徴選択法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-05T14:26:23Z) - Interpretable Linear Dimensionality Reduction based on Bias-Variance
Analysis [45.3190496371625]
本稿では,特徴の解釈可能性を維持するための基本次元削減手法を提案する。
このように、全ての特徴を考慮し、次元性を減らし、解釈可能性を保持する。
論文 参考訳(メタデータ) (2023-03-26T14:30:38Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - Feature Weighted Non-negative Matrix Factorization [92.45013716097753]
本稿では,FNMF(Feature weighted Non- negative Matrix Factorization)を提案する。
FNMFはその重要性に応じて特徴の重みを適応的に学習する。
提案する最適化アルゴリズムを用いて効率的に解くことができる。
論文 参考訳(メタデータ) (2021-03-24T21:17:17Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - The role of feature space in atomistic learning [62.997667081978825]
物理的にインスパイアされた記述子は、原子論シミュレーションへの機械学習技術の応用において重要な役割を果たしている。
異なる記述子のセットを比較するためのフレームワークを導入し、メトリクスとカーネルを使ってそれらを変換するさまざまな方法を紹介します。
原子密度のn-体相関から構築した表現を比較し,低次特徴の利用に伴う情報損失を定量的に評価した。
論文 参考訳(メタデータ) (2020-09-06T14:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。