論文の概要: Automatic feature selection and weighting using Differentiable Information Imbalance
- arxiv url: http://arxiv.org/abs/2411.00851v1
- Date: Wed, 30 Oct 2024 11:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:50.847400
- Title: Automatic feature selection and weighting using Differentiable Information Imbalance
- Title(参考訳): 微分情報不均衡を用いた特徴の自動選択と重み付け
- Authors: Romina Wild, Vittorio Del Tatto, Felix Wodaczek, Bingqing Cheng, Alessandro Laio,
- Abstract要約: 本稿では,特徴集合間で情報内容のランク付けを行う自動データ解析手法DIIを紹介する。
地上の真理特徴空間における距離に応じて最も近い隣人に基づいて、入力特徴量の低次元部分集合を求める。
識別可能な情報不均衡を損失関数として利用することにより、入力の相対的特徴重みを最適化し、ユニットアライメントと相対的重要スケーリングを同時に行う。
- 参考スコア(独自算出の注目度): 41.452380773977154
- License:
- Abstract: Feature selection is a common process in many applications, but it is accompanied by uncertainties such as: What is the optimal dimensionality of an interpretable, reduced feature space to retain a maximum amount of information? How to account for different units of measure in features? How to weight different features according to their importance? To address these challenges, we introduce the Differentiable Information Imbalance (DII), an automatic data analysis method to rank information content between sets of features. Based on the nearest neighbors according to distances in the ground truth feature space, the method finds a low-dimensional subset of the input features, within which the pairwise distance relations are most similar to the ground truth. By employing the Differentiable Information Imbalance as a loss function, the relative feature weights of the inputs are optimized, simultaneously performing unit alignment and relative importance scaling, while preserving interpretability. Furthermore, this method can generate sparse solutions and determine the optimal size of the reduced feature space. We illustrate the usefulness of this approach on two prototypical benchmark problems: (1) Identifying a small set of collective variables capable of describing the conformational space of a biomolecule, and (2) selecting a subset of features for training a machine-learning force field. The results highlight the potential of the Differentiable Information Imbalance in addressing feature selection challenges and optimizing dimensionality in various applications. The method is implemented in the Python library DADApy.
- Abstract(参考訳): 多くのアプリケーションでは特徴選択は一般的なプロセスであるが、次のような不確実性が伴っている: 最大の情報を保持するために解釈可能で縮小された特徴空間の最適次元は何か?
機能における異なる測定単位をどう説明すればよいか?
その重要性に応じて、どのように異なる特徴を重み付けするか?
これらの課題に対処するために,特徴集合間で情報内容のランク付けを行う自動データ解析手法であるDII(Dariable Information Im Balance)を導入する。
接地真理特徴空間内の距離に応じて近接する近傍に基づき、この手法は入力特徴の低次元部分集合を見つけ、その内、対距離関係は接地真理と最もよく似ている。
識別可能な情報不均衡を損失関数として利用することにより、入力の相対的特徴重みを最適化し、解釈可能性を維持しつつ、ユニットアライメントと相対的重要スケーリングを同時に行う。
さらに、この方法はスパース解を生成し、縮小された特徴空間の最適サイズを決定することができる。
本手法は,(1)生体分子の配座空間を記述可能な小さな集合変数の集合を同定し,(2)機械学習力場を訓練するための特徴のサブセットを選択するという,2つの原型ベンチマーク問題に対して有用性を示す。
その結果,特徴選択問題に対処し,様々なアプリケーションにおける次元を最適化する上で,情報不均衡がもたらす可能性を強調した。
このメソッドはPythonライブラリのDADApyで実装されている。
関連論文リスト
- Gram-Schmidt Methods for Unsupervised Feature Extraction and Selection [7.373617024876725]
本稿では,関数空間上のGram-Schmidtプロセスを提案する。
合成および実世界のベンチマークデータセットに対する実験結果を提供する。
驚いたことに、線形特徴抽出アルゴリズムは同等であり、しばしば重要な非線形特徴抽出法よりも優れている。
論文 参考訳(メタデータ) (2023-11-15T21:29:57Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Measuring dissimilarity with diffeomorphism invariance [94.02751799024684]
DID(DID)は、幅広いデータ空間に適用可能なペアワイズな相似性尺度である。
我々は、DIDが理論的研究と実用に関係のある特性を享受していることを証明する。
論文 参考訳(メタデータ) (2022-02-11T13:51:30Z) - Feature Weighted Non-negative Matrix Factorization [92.45013716097753]
本稿では,FNMF(Feature weighted Non- negative Matrix Factorization)を提案する。
FNMFはその重要性に応じて特徴の重みを適応的に学習する。
提案する最適化アルゴリズムを用いて効率的に解くことができる。
論文 参考訳(メタデータ) (2021-03-24T21:17:17Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Robust Multi-class Feature Selection via $l_{2,0}$-Norm Regularization
Minimization [6.41804410246642]
特徴選択は、データマイニングと機械学習において重要な計算処理である。
本稿では,複数クラスの特徴選択における最小二乗問題の解法として,ホモシーハードしきい値(HIHT)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-08T02:06:06Z) - The role of feature space in atomistic learning [62.997667081978825]
物理的にインスパイアされた記述子は、原子論シミュレーションへの機械学習技術の応用において重要な役割を果たしている。
異なる記述子のセットを比較するためのフレームワークを導入し、メトリクスとカーネルを使ってそれらを変換するさまざまな方法を紹介します。
原子密度のn-体相関から構築した表現を比較し,低次特徴の利用に伴う情報損失を定量的に評価した。
論文 参考訳(メタデータ) (2020-09-06T14:12:09Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - METASET: Exploring Shape and Property Spaces for Data-Driven
Metamaterials Design [20.272835126269374]
より小さいが多様な単細胞が、スケーラブルな検索と非バイアス学習につながることを示す。
我々のフレキシブルな方法は、採用される計量によらず、ユニークな部分集合を蒸留することができる。
私たちの多様なサブセットは、デザイナが使用するために公開されています。
論文 参考訳(メタデータ) (2020-06-01T03:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。