論文の概要: Nonlinear Feature Aggregation: Two Algorithms driven by Theory
- arxiv url: http://arxiv.org/abs/2306.11143v1
- Date: Mon, 19 Jun 2023 19:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 16:32:06.506539
- Title: Nonlinear Feature Aggregation: Two Algorithms driven by Theory
- Title(参考訳): 非線形特徴集合:理論による2つのアルゴリズム
- Authors: Paolo Bonetti, Alberto Maria Metelli, Marcello Restelli
- Abstract要約: 現実世界の機械学習アプリケーションは、膨大な機能によって特徴付けられ、計算やメモリの問題を引き起こす。
一般集約関数を用いて特徴量の非線形変換を集約する次元還元アルゴリズム(NonLinCFA)を提案する。
また、アルゴリズムを合成および実世界のデータセット上でテストし、回帰および分類タスクを実行し、競合性能を示す。
- 参考スコア(独自算出の注目度): 45.3190496371625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world machine learning applications are characterized by a huge
number of features, leading to computational and memory issues, as well as the
risk of overfitting. Ideally, only relevant and non-redundant features should
be considered to preserve the complete information of the original data and
limit the dimensionality. Dimensionality reduction and feature selection are
common preprocessing techniques addressing the challenge of efficiently dealing
with high-dimensional data. Dimensionality reduction methods control the number
of features in the dataset while preserving its structure and minimizing
information loss. Feature selection aims to identify the most relevant features
for a task, discarding the less informative ones. Previous works have proposed
approaches that aggregate features depending on their correlation without
discarding any of them and preserving their interpretability through
aggregation with the mean. A limitation of methods based on correlation is the
assumption of linearity in the relationship between features and target. In
this paper, we relax such an assumption in two ways. First, we propose a
bias-variance analysis for general models with additive Gaussian noise, leading
to a dimensionality reduction algorithm (NonLinCFA) which aggregates non-linear
transformations of features with a generic aggregation function. Then, we
extend the approach assuming that a generalized linear model regulates the
relationship between features and target. A deviance analysis leads to a second
dimensionality reduction algorithm (GenLinCFA), applicable to a larger class of
regression problems and classification settings. Finally, we test the
algorithms on synthetic and real-world datasets, performing regression and
classification tasks, showing competitive performances.
- Abstract(参考訳): 多くの現実世界の機械学習アプリケーションは、膨大な機能によって特徴づけられ、計算とメモリの問題と過剰に適合するリスクに繋がる。
理想的には、元のデータの完全な情報を保存し、次元を制限できるのは、適切で冗長でない特徴だけである。
次元の低減と特徴選択は、高次元データを効率的に扱うという課題に対処する一般的な前処理技術である。
次元性低減法は,その構造を維持しつつ,情報損失を最小限に抑えながら,データセットの特徴数を制御する。
機能選択はタスクの最も関連する機能を特定し、より情報に乏しい機能を捨てることを目的としている。
以前の研究では、それらを破棄することなく、その相関に依存する特徴を集約し、平均とアグリゲーションを通じてそれらの解釈可能性を維持するアプローチを提案している。
相関に基づく方法の限界は、特徴と対象の関係における線形性の仮定である。
本稿では,このような仮定を2つの方法で緩和する。
まず,加法ガウス雑音を持つ一般モデルに対するバイアス分散解析を行い,一般集約関数を用いて特徴量の非線形変換を集約する次元減少アルゴリズム(NonLinCFA)を提案する。
そして,一般化線形モデルが特徴と対象の関係を制御していると仮定して,アプローチを拡張した。
逸脱解析は、より広いクラスの回帰問題や分類設定に適用可能な第2次元縮小アルゴリズム(genlincfa)へと導かれる。
最後に、アルゴリズムを合成および実世界のデータセット上でテストし、回帰および分類タスクを実行し、競合性能を示す。
関連論文リスト
- Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Interpretable Linear Dimensionality Reduction based on Bias-Variance
Analysis [45.3190496371625]
本稿では,特徴の解釈可能性を維持するための基本次元削減手法を提案する。
このように、全ての特徴を考慮し、次元性を減らし、解釈可能性を保持する。
論文 参考訳(メタデータ) (2023-03-26T14:30:38Z) - Information bottleneck theory of high-dimensional regression: relevancy,
efficiency and optimality [6.700873164609009]
オーバーフィッティングは機械学習における中心的な課題であるが、多くの大きなニューラルネットワークは容易にトレーニング損失をゼロにする。
トレーニングデータのノイズを符号化する適合モデルのビットとして定義される残差情報による過度適合の定量化を行う。
論文 参考訳(メタデータ) (2022-08-08T00:09:12Z) - Efficient and Near-Optimal Smoothed Online Learning for Generalized
Linear Functions [28.30744223973527]
我々は,K-wise線形分類において,統計学的に最適なログ(T/sigma)の後悔を初めて楽しむ計算効率のよいアルゴリズムを提案する。
一般化線形分類器によって誘導される不一致領域の幾何学の新たな特徴付けを開発する。
論文 参考訳(メタデータ) (2022-05-25T21:31:36Z) - Piecewise linear regression and classification [0.20305676256390928]
本稿では,線形予測器を用いた多変量回帰と分類問題の解法を提案する。
本論文で記述されたアルゴリズムのpython実装は、http://cse.lab.imtlucca.it/bemporad/parcで利用可能である。
論文 参考訳(メタデータ) (2021-03-10T17:07:57Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Adaptive Graph-based Generalized Regression Model for Unsupervised
Feature Selection [11.214334712819396]
非相関的かつ識別的特徴の選択は、教師なしの機能選択の重要な問題である。
非相関制約と $ell_2,1$-norm 正規化によって課される新しい一般化回帰モデルを提案する。
それは同時に同じ近所に属するこれらのデータ ポイントの分散を減らすこと無相関および差別的な特徴を選ぶことができます。
論文 参考訳(メタデータ) (2020-12-27T09:07:26Z) - Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。
提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文 参考訳(メタデータ) (2020-06-24T17:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。