論文の概要: Feature selection in machine learning: R\'enyi min-entropy vs Shannon
entropy
- arxiv url: http://arxiv.org/abs/2001.09654v1
- Date: Mon, 27 Jan 2020 09:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 08:00:13.089098
- Title: Feature selection in machine learning: R\'enyi min-entropy vs Shannon
entropy
- Title(参考訳): 機械学習における特徴選択:R\enyi min-entropy vs Shannon entropy
- Authors: Catuscia Palamidessi and Marco Romanelli
- Abstract要約: セキュリティとプライバシの分野で最近採用されている条件付きR'enyi min-entropyの概念に基づくアルゴリズムを提案する。
しかし実際には、R'enyiベースのアルゴリズムは、他のアルゴリズムよりも優れている傾向にある。
- 参考スコア(独自算出の注目度): 6.434361163743876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection, in the context of machine learning, is the process of
separating the highly predictive feature from those that might be irrelevant or
redundant. Information theory has been recognized as a useful concept for this
task, as the prediction power stems from the correlation, i.e., the mutual
information, between features and labels. Many algorithms for feature selection
in the literature have adopted the Shannon-entropy-based mutual information. In
this paper, we explore the possibility of using R\'enyi min-entropy instead. In
particular, we propose an algorithm based on a notion of conditional R\'enyi
min-entropy that has been recently adopted in the field of security and
privacy, and which is strictly related to the Bayes error. We prove that in
general the two approaches are incomparable, in the sense that we show that we
can construct datasets on which the R\'enyi-based algorithm performs better
than the corresponding Shannon-based one, and datasets on which the situation
is reversed. In practice, however, when considering datasets of real data, it
seems that the R\'enyi-based algorithm tends to outperform the other one. We
have effectuate several experiments on the BASEHOCK, SEMEION, and GISETTE
datasets, and in all of them we have indeed observed that the R\'enyi-based
algorithm gives better results.
- Abstract(参考訳): 特徴選択は、機械学習の文脈において、非常に予測性の高い特徴と、無関係あるいは冗長な機能とを分離するプロセスである。
情報理論はこの課題において有用な概念として認識されており、予測力は特徴とラベルの相互情報という相関関係に由来する。
文学における特徴選択のための多くのアルゴリズムはシャノンエントロピーに基づく相互情報を採用している。
本稿では、代わりにR'enyi min-entropy を用いることの可能性を検討する。
特に,セキュリティとプライバシの分野で最近採用されている条件付きR'enyi min-entropyの概念に基づくアルゴリズムを提案する。
一般に、r\'enyiベースのアルゴリズムが対応するシャノンベースのデータセットよりもうまく機能するデータセットと、状況が逆転するデータセットを構築できるという意味で、2つのアプローチは比較不能であることが証明される。
しかし実際には、実際のデータのデータセットを考えると、R'enyiベースのアルゴリズムは他方よりも優れている傾向にある。
我々は、basehock、semeion、gisetteデータセットについていくつかの実験を行い、これら全てにおいて、r\'enyiベースのアルゴリズムがより良い結果をもたらすことを実際に観察した。
関連論文リスト
- Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Learning versus Refutation in Noninteractive Local Differential Privacy [133.80204506727526]
非対話的局所差分プライバシー(LDP)における2つの基本的な統計課題について検討する。
本研究の主な成果は,非対話型LDPプロトコルにおけるPAC学習の複雑さの完全な評価である。
論文 参考訳(メタデータ) (2022-10-26T03:19:24Z) - Automated Algorithm Selection: from Feature-Based to Feature-Free
Approaches [0.5801044612920815]
本稿では,データ中に暗黙的なシーケンシャル情報がカプセル化されている最適化に適用可能な,アルゴリズム選択のための新しい手法を提案する。
我々は、よく知られた4つのドメインから選択して、オンラインビンパッキングのパッキングを予測するために、2種類のリカレントニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2022-03-24T23:59:50Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - IFGAN: Missing Value Imputation using Feature-specific Generative
Adversarial Networks [14.714106979097222]
本論文では,GAN(Feature-specific Generative Adversarial Networks)に基づく欠落値インピーダンスアルゴリズムIFGANを提案する。
特徴特異的生成器は欠落した値を誘発するように訓練され、判別器は観測された値と区別することが期待される。
IFGANは、様々な不足条件下で、現在の最先端アルゴリズムよりも優れている実生活データセットを実証的に示す。
論文 参考訳(メタデータ) (2020-12-23T10:14:35Z) - Learning Unbiased Representations via R\'enyi Minimization [13.61565693336172]
本稿では,HGR(Hirschfeld-Gebel-Renyi)最大相関係数を用いて,不偏表現を学習する逆アルゴリズムを提案する。
我々は、我々のアプローチを実証的に評価し、比較し、この分野における既存の作業よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-09-07T15:48:24Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。