論文の概要: Cost-sensitive Feature Selection for Support Vector Machines
- arxiv url: http://arxiv.org/abs/2401.07627v1
- Date: Mon, 15 Jan 2024 12:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:24:29.706936
- Title: Cost-sensitive Feature Selection for Support Vector Machines
- Title(参考訳): サポートベクトルマシンのコスト感受性の特徴選択
- Authors: Sandra Ben\'itez-Pe\~na and Rafael Blanquero and Emilio Carrizosa and
Pepa Ram\'irez-Cobo
- Abstract要約: 本稿では,最も一般的な分類手法の一つであるSupport Vector Machinesに組込み,数学的最適化に基づく特徴選択手法を提案する。
また, 偽陰性率と偽陰性率とのトレードオフが望まれる一方で, 特徴量を大幅に減少することを示す。
- 参考スコア(独自算出の注目度): 1.743685428161914
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Feature Selection is a crucial procedure in Data Science tasks such as
Classification, since it identifies the relevant variables, making thus the
classification procedures more interpretable, cheaper in terms of measurement
and more effective by reducing noise and data overfit. The relevance of
features in a classification procedure is linked to the fact that
misclassifications costs are frequently asymmetric, since false positive and
false negative cases may have very different consequences. However,
off-the-shelf Feature Selection procedures seldom take into account such
cost-sensitivity of errors.
In this paper we propose a mathematical-optimization-based Feature Selection
procedure embedded in one of the most popular classification procedures,
namely, Support Vector Machines, accommodating asymmetric misclassification
costs. The key idea is to replace the traditional margin maximization by
minimizing the number of features selected, but imposing upper bounds on the
false positive and negative rates. The problem is written as an integer linear
problem plus a quadratic convex problem for Support Vector Machines with both
linear and radial kernels.
The reported numerical experience demonstrates the usefulness of the proposed
Feature Selection procedure. Indeed, our results on benchmark data sets show
that a substantial decrease of the number of features is obtained, whilst the
desired trade-off between false positive and false negative rates is achieved.
- Abstract(参考訳): 特徴の選択は、関連する変数を識別するため、分類のようなデータサイエンスのタスクにおいて重要な手順である。
分類手続きにおける特徴の関連性は、誤分類のコストがしばしば非対称であるという事実と関係している。
しかし、既製の特徴選択手順は、このようなコストのかかるエラーを考慮に入れない。
本稿では,最も一般的な分類手順であるサポートベクターマシンに埋め込まれた数学的最適化に基づく特徴選択手法を提案する。
鍵となるアイデアは、選択された特徴の数を最小にすることで従来のマージンの最大化を置き換えることであるが、偽の正と負の率に上限を課すことである。
この問題は、線形カーネルとラジアルカーネルの両方を持つサポートベクターマシンの二次凸問題に加えて整数線形問題として記述される。
報告された数値経験から,提案手法の有用性が示された。
実際、我々のベンチマークデータセットの結果は、偽陽性と偽陰性の間のトレードオフが達成される一方で、特徴の数が大幅に減少することを示している。
関連論文リスト
- Implicit Regularization for Multi-label Feature Selection [1.5771347525430772]
暗黙の正規化とラベル埋め込みに基づく新しい推定器を用いて,多言語学習の文脈における特徴選択の問題に対処する。
いくつかの既知のベンチマークデータセットの実験結果から、提案された推定器は余分なバイアスを伴わず、良心的な過度な適合につながる可能性が示唆されている。
論文 参考訳(メタデータ) (2024-11-18T10:08:05Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Nonparametric active learning for cost-sensitive classification [2.1756081703276]
コスト依存型分類のための一般的な非パラメトリック能動学習アルゴリズムを設計する。
我々は、一致した(対数係数まで)下界を提供することにより、得られた上界のほぼ最適性を証明した。
論文 参考訳(メタデータ) (2023-09-30T22:19:21Z) - Bilevel Optimization for Feature Selection in the Data-Driven Newsvendor
Problem [8.281391209717105]
本稿では、意思決定者が過去のデータにアクセス可能な機能ベースのニュースベンダー問題について検討する。
そこで本研究では,スパースモデル,説明可能なモデル,およびアウト・オブ・サンプル性能の改善を目的とした特徴選択について検討する。
本稿では,2レベルプログラムに対する混合整数線形プログラムの修正について述べる。
論文 参考訳(メタデータ) (2022-09-12T08:52:26Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Gradient Descent in RKHS with Importance Labeling [58.79085525115987]
我々は重要ラベル付け問題について研究し、ラベルなしデータが多く与えられている。
ラベルなしデータの情報サブセットを効果的に選択できる新しい重要ラベル方式を提案する。
論文 参考訳(メタデータ) (2020-06-19T01:55:00Z) - A novel embedded min-max approach for feature selection in nonlinear
support vector machine classification [0.0]
min-max最適化問題に基づく組込み特徴選択法を提案する。
双対性理論を活用することにより、min-max問題を等価に修正し、それ以上のアドを伴わずに解決する。
提案手法の効率性と有用性は,いくつかのベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-04-21T09:40:38Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。