論文の概要: An Experiment on Feature Selection using Logistic Regression
- arxiv url: http://arxiv.org/abs/2402.00201v1
- Date: Wed, 31 Jan 2024 21:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 17:12:02.148801
- Title: An Experiment on Feature Selection using Logistic Regression
- Title(参考訳): ロジスティック回帰を用いた特徴選択の試み
- Authors: Raisa Islam, Subhasish Mazumdar, Rakibul Islam
- Abstract要約: ロジスティック回帰(LR)に関連するL1およびL2正規化戦略に基づく特徴選択法について検討する。
まず,L1,L2,L1,L2,L1,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L2,L1,L2,L2,L2,L2,L2,L2, L2,L2,L2,L2,L2を比較した。
特徴集合が選択されると,2つの手法の精度に有意な差は認められなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In supervised machine learning, feature selection plays a very important role
by potentially enhancing explainability and performance as measured by
computing time and accuracy-related metrics. In this paper, we investigate a
method for feature selection based on the well-known L1 and L2 regularization
strategies associated with logistic regression (LR). It is well known that the
learned coefficients, which serve as weights, can be used to rank the features.
Our approach is to synthesize the findings of L1 and L2 regularization. For our
experiment, we chose the CIC-IDS2018 dataset owing partly to its size and also
to the existence of two problematic classes that are hard to separate. We
report first with the exclusion of one of them and then with its inclusion. We
ranked features first with L1 and then with L2, and then compared logistic
regression with L1 (LR+L1) against that with L2 (LR+L2) by varying the sizes of
the feature sets for each of the two rankings. We found no significant
difference in accuracy between the two methods once the feature set is
selected. We chose a synthesis, i.e., only those features that were present in
both the sets obtained from L1 and that from L2, and experimented with it on
more complex models like Decision Tree and Random Forest and observed that the
accuracy was very close in spite of the small size of the feature set.
Additionally, we also report on the standard metrics: accuracy, precision,
recall, and f1-score.
- Abstract(参考訳): 教師付き機械学習では、計算時間と精度関連メトリクスによって測定された説明可能性と性能を潜在的に高めることにより、特徴選択が非常に重要な役割を果たす。
本稿では,ロジスティック回帰(LR)に付随するよく知られたL1およびL2正規化戦略に基づく特徴選択手法について検討する。
学習係数は、重みとして機能し、特徴のランク付けに利用できることはよく知られている。
我々はl1とl2の正規化の知見を合成する。
実験では,CIC-IDS2018データセットをそのサイズと分離が難しい2つの問題のあるクラスの存在から選択した。
まず、それらのうちの1つを除外し、次にその包含を報告します。
まず特徴点をl1,次にl2でランク付けし,ロジスティック回帰をl1(lr+l1)とl2(lr+l2)と比較した。
特徴集合が選択されると,2つの手法の精度に有意な差は認められなかった。
我々は、L1から得られた集合とL2から得られた集合の両方に存在する特徴のみを合成し、決定木やランダムフォレストのようなより複雑なモデルで実験し、特徴集合の小さいにもかかわらず精度が非常に近いことを観察した。
さらに,標準指標である精度,精度,リコール,f1-scoreについても報告する。
関連論文リスト
- Is Interpretable Machine Learning Effective at Feature Selection for Neural Learning-to-Rank? [15.757181795925336]
ニューラルネットワークのランキングモデルは、現実世界の検索とレコメンデーションシステムでますます人気が高まっている。
ツリーベースのモデルとは異なり、ニューラルモデルは解釈がはるかに少ない。
これは、現実世界のシステムにとって解釈可能性が非常に重要であるため、特に不利である。
論文 参考訳(メタデータ) (2024-05-13T14:26:29Z) - Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators [59.48172585509628]
自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。
実ケーススタディとして,チャットLLMのベンチマークであるAlpacaEvalの長さバイアスの低減に着目した。
モデルとベースラインの出力が同じ長さである場合、その好みは何でしょう?
論文 参考訳(メタデータ) (2024-04-06T02:29:02Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Maintaining Plasticity in Continual Learning via Regenerative Regularization [18.359559397572742]
連続学習において、可塑性とは、エージェントが新しい情報に迅速に適応できる能力を指す。
損失関数 L2 を初期パラメータに対して正規化することにより,可塑性を維持するための簡単な手法 L2 Init を提案する。
論文 参考訳(メタデータ) (2023-08-23T06:57:05Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Selecting Robust Features for Machine Learning Applications using
Multidata Causal Discovery [7.8814500102882805]
時系列データセットのアンサンブルを同時に処理するマルチデータ因果的特徴選択手法を提案する。
このアプローチでは、Tigramite Pythonパッケージに実装されているPC1またはPCMCIの因果発見アルゴリズムを使用する。
この枠組みを西太平洋熱帯サイクロンの統計的強度予測に適用する。
論文 参考訳(メタデータ) (2023-04-11T15:43:34Z) - M-L2O: Towards Generalizable Learning-to-Optimize by Test-Time Fast
Self-Adaptation [145.7321032755538]
L2O(Learning to Optimize)は、複雑なタスクの最適化手順を著しく加速させるため、注目を集めている。
本稿では, アウト・オブ・ディストリビューションタスクへの高速なテスト時間自己適応を実現するL2Oをメタトレーニングすることで, このオープンな課題に対する潜在的な解決策を検討する。
論文 参考訳(メタデータ) (2023-02-28T19:23:20Z) - Dual-sPLS: a family of Dual Sparse Partial Least Squares regressions for
feature selection and prediction with tunable sparsity; evaluation on
simulated and near-infrared (NIR) data [1.6099403809839032]
この論文で示された変種であるDual-sPLSは、古典的なPLS1アルゴリズムを一般化する。
正確な予測と効率的な解釈のバランスを提供する。
コードはRでオープンソースパッケージとして提供される。
論文 参考訳(メタデータ) (2023-01-17T21:50:35Z) - Symbolic Learning to Optimize: Towards Interpretability and Scalability [113.23813868412954]
近年のL2O(Learning to Optimize)研究は,複雑なタスクに対する最適化手順の自動化と高速化に期待できる道のりを示唆している。
既存のL2Oモデルは、ニューラルネットワークによる最適化ルールをパラメータ化し、メタトレーニングを通じてそれらの数値ルールを学ぶ。
本稿では,L2Oの総合的な記号表現と解析の枠組みを確立する。
そこで本稿では,大規模問題にメタトレーニングを施す軽量なL2Oモデルを提案する。
論文 参考訳(メタデータ) (2022-03-13T06:04:25Z) - Learning to Match Distributions for Domain Adaptation [116.14838935146004]
本稿では,ドメイン間分布マッチングを自動的に学習する学習 to Match (L2M)を提案する。
L2Mは、メタネットワークを用いてデータ駆動方式で分布整合損失を学習することにより、誘導バイアスを低減する。
公開データセットの実験は、SOTA法よりもL2Mの方が優れていることを裏付けている。
論文 参考訳(メタデータ) (2020-07-17T03:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。