論文の概要: Interpretable Linear Dimensionality Reduction based on Bias-Variance
Analysis
- arxiv url: http://arxiv.org/abs/2303.14734v1
- Date: Sun, 26 Mar 2023 14:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:51:57.368573
- Title: Interpretable Linear Dimensionality Reduction based on Bias-Variance
Analysis
- Title(参考訳): Bias-Variance解析に基づく線形次元の解釈可能化
- Authors: Paolo Bonetti, Alberto Maria Metelli, Marcello Restelli
- Abstract要約: 本稿では,特徴の解釈可能性を維持するための基本次元削減手法を提案する。
このように、全ての特徴を考慮し、次元性を減らし、解釈可能性を保持する。
- 参考スコア(独自算出の注目度): 45.3190496371625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the central issues of several machine learning applications on real
data is the choice of the input features. Ideally, the designer should select
only the relevant, non-redundant features to preserve the complete information
contained in the original dataset, with little collinearity among features and
a smaller dimension. This procedure helps mitigate problems like overfitting
and the curse of dimensionality, which arise when dealing with high-dimensional
problems. On the other hand, it is not desirable to simply discard some
features, since they may still contain information that can be exploited to
improve results. Instead, dimensionality reduction techniques are designed to
limit the number of features in a dataset by projecting them into a
lower-dimensional space, possibly considering all the original features.
However, the projected features resulting from the application of
dimensionality reduction techniques are usually difficult to interpret. In this
paper, we seek to design a principled dimensionality reduction approach that
maintains the interpretability of the resulting features. Specifically, we
propose a bias-variance analysis for linear models and we leverage these
theoretical results to design an algorithm, Linear Correlated Features
Aggregation (LinCFA), which aggregates groups of continuous features with their
average if their correlation is "sufficiently large". In this way, all features
are considered, the dimensionality is reduced and the interpretability is
preserved. Finally, we provide numerical validations of the proposed algorithm
both on synthetic datasets to confirm the theoretical results and on real
datasets to show some promising applications.
- Abstract(参考訳): 実データにおける機械学習アプリケーションの中心的な問題の1つは、入力機能の選択である。
理想的には、設計者は、元のデータセットに含まれる完全な情報を保存するために、関連する、非冗長な特徴のみを選択するべきである。
この手順は、高次元問題を扱う際に生じる過剰適合や次元の呪いといった問題を緩和するのに役立つ。
一方で、結果を改善するために活用できる情報を含む可能性があるため、一部の機能を単に破棄するのは望ましいことではない。
代わりに、次元の縮小技術は、データセット内の特徴の数を制限するように設計され、それらを低次元空間に投影し、おそらく全ての元の特徴を考慮している。
しかし、次元の縮小技術の適用によって生じる投影された特徴は通常解釈が困難である。
本稿では,得られた特徴の解釈性を維持するための原理的次元性低減手法を考案する。
具体的には、線形モデルに対するバイアス分散分析を提案し、これらの理論結果を利用して線形関連特徴集合(LinCFA)を設計し、相関が「十分大きい」場合、連続特徴群を平均で集約する。
このように、全ての特徴を考慮し、次元性を減らし、解釈可能性を保持する。
最後に,提案アルゴリズムの理論的結果を確認するための合成データセットと,有望な応用を示すための実データセットの数値検証を行う。
関連論文リスト
- Dimension reduction via score ratio matching [0.9012198585960441]
スコアマッチングから派生したフレームワークを提案し、勾配を利用できない問題に勾配に基づく次元の減少を拡大する。
提案手法は,低次元構造を有する問題に対して,標準的なスコアマッチングよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-25T22:21:03Z) - On Probabilistic Embeddings in Optimal Dimension Reduction [1.2085509610251701]
次元減少アルゴリズムは多くのデータサイエンスパイプラインの重要な部分である。
広く利用されているにもかかわらず、多くの非線形次元還元アルゴリズムは理論的観点からは理解されていない。
論文 参考訳(メタデータ) (2024-08-05T12:46:21Z) - Nonlinear Feature Aggregation: Two Algorithms driven by Theory [45.3190496371625]
現実世界の機械学習アプリケーションは、膨大な機能によって特徴付けられ、計算やメモリの問題を引き起こす。
一般集約関数を用いて特徴量の非線形変換を集約する次元還元アルゴリズム(NonLinCFA)を提案する。
また、アルゴリズムを合成および実世界のデータセット上でテストし、回帰および分類タスクを実行し、競合性能を示す。
論文 参考訳(メタデータ) (2023-06-19T19:57:33Z) - Linearly-scalable learning of smooth low-dimensional patterns with
permutation-aided entropic dimension reduction [0.0]
多くのデータサイエンス応用において、高次元データセットから適切に順序付けられた滑らかな低次元データパターンを抽出することが目的である。
本研究では, ユークリッドの滑らか度をパターン品質基準として選択する場合, これらの問題を数値的に効率的に解けることを示す。
論文 参考訳(メタデータ) (2023-06-17T08:03:24Z) - An evaluation framework for dimensionality reduction through sectional
curvature [59.40521061783166]
本研究は,非教師付き次元減少性能指標を初めて導入することを目的としている。
その実現可能性をテストするために、この測定基準は最もよく使われる次元削減アルゴリズムの性能を評価するために用いられている。
新しいパラメータ化問題インスタンスジェネレータが関数ジェネレータの形式で構築されている。
論文 参考訳(メタデータ) (2023-03-17T11:59:33Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - High-dimensional separability for one- and few-shot learning [58.8599521537]
この作業は、実用的な質問、人工知能(AI)エラーの修正によって進められている。
特殊な外部デバイスである修正器が開発されている。従来のAIシステムを変更することなく、迅速かつ非イテレーティブなシステム修正を提供する必要がある。
AIシステムの新しいマルチコレクタが提示され、深層畳み込みニューラルネットワークによってエラーを予測し、新しいクラスのオブジェクトを学習する例が紹介される。
論文 参考訳(メタデータ) (2021-06-28T14:58:14Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Adaptive Graph-based Generalized Regression Model for Unsupervised
Feature Selection [11.214334712819396]
非相関的かつ識別的特徴の選択は、教師なしの機能選択の重要な問題である。
非相関制約と $ell_2,1$-norm 正規化によって課される新しい一般化回帰モデルを提案する。
それは同時に同じ近所に属するこれらのデータ ポイントの分散を減らすこと無相関および差別的な特徴を選ぶことができます。
論文 参考訳(メタデータ) (2020-12-27T09:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。