論文の概要: Data-Centric AI: Deep Generative Differentiable Feature Selection via
Discrete Subsetting as Continuous Embedding Space Optimization
- arxiv url: http://arxiv.org/abs/2302.13221v3
- Date: Tue, 30 May 2023 01:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 01:19:01.695567
- Title: Data-Centric AI: Deep Generative Differentiable Feature Selection via
Discrete Subsetting as Continuous Embedding Space Optimization
- Title(参考訳): データ中心AI: 連続埋め込み空間最適化としての離散サブセットによる深層生成可能な特徴選択
- Authors: Meng Xiao and Dongjie Wang and Min Wu and Pengfei Wang and Yuanchun
Zhou and Yanjie Fu
- Abstract要約: 本稿では,連続的な埋め込み空間最適化としての離散的特徴部分集合を新たに提案する。
我々は、トレーニングデータジェネレータとしての強化、多彩なピアのアンサンブル、一般化のための探索的特徴セレクタ知識など、新しい技術的洞察を開発する。
実験の結果,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 24.043881449618233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature Selection (FS), such as filter, wrapper, and embedded methods, aims
to find the optimal feature subset for a given downstream task. However, in
many real-world practices, 1) the criteria of FS vary across domains; 2) FS is
brittle when data is a high-dimensional and small sample size. Can selected
feature subsets be more generalized, accurate, and input dimensionality
agnostic? We generalize this problem into a deep differentiable feature
selection task and propose a new perspective: discrete feature subsetting as
continuous embedding space optimization. We develop a generic and principled
framework including a deep feature subset encoder, accuracy evaluator, decoder,
and gradient ascent optimizer. This framework implements four steps: 1)
features-accuracy training data preparation; 2) deep feature subset embedding;
3) gradient-optimized search; 4) feature subset reconstruction. We develop new
technical insights: reinforcement as a training data generator, ensembles of
diverse peer and exploratory feature selector knowledge for generalization, an
effective embedding from feature subsets to continuous space along with joint
optimizing reconstruction and accuracy losses to select accurate features.
Experimental results demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): フィルタ、ラッパー、組込みメソッドなどの機能選択(FS)は、与えられた下流タスクに最適な機能サブセットを見つけることを目的としている。
しかし、現実の多くの実践では。
1)FSの基準は領域によって異なる。
2) FSはデータが高次元かつ小サンプルサイズである場合に脆である。
選択された特徴部分集合はより一般化され、正確で、入力次元に依存しないか?
この問題を深く微分可能な特徴選択タスクに一般化し、新しい視点:連続埋め込み空間最適化としての離散的特徴部分集合を提案する。
我々は,deep feature subset encoder, accuracy evaluator, decoder,gradient ascent optimizerを含む汎用的かつ原則的なフレームワークを開発した。
このフレームワークは以下の4つのステップを実行します。
1) 特徴的正確性訓練データ作成
2) 深い特徴部分集合の埋め込み
3)勾配最適化探索
4) 特徴部分集合の再構成。
トレーニングデータジェネレータとしての強化、一般化のための多様なピアと探索的特徴セレクタ知識のアンサンブル、特徴部分集合から連続空間への効果的な埋め込み、そして正確な特徴を選択するための共同最適化と精度損失。
実験の結果,提案手法の有効性が示された。
関連論文リスト
- Large-scale Multi-objective Feature Selection: A Multi-phase Search Space Shrinking Approach [0.27624021966289597]
特徴の選択は、特に高次元データセットにおいて、機械学習において重要なステップである。
本稿では,LMSSSと呼ばれる探索空間の縮小に基づく大規模多目的進化アルゴリズムを提案する。
提案アルゴリズムの有効性は、15の大規模データセットに対する包括的実験によって実証される。
論文 参考訳(メタデータ) (2024-10-13T23:06:10Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Neuro-Symbolic Embedding for Short and Effective Feature Selection via Autoregressive Generation [22.87577374767465]
ニューロシンボリックレンズを用いて特徴選択を再構成し、短時間かつ効果的な特徴サブセットを特定することを目的とした新しい生成フレームワークを導入する。
本稿ではまず,特徴IDトークン,モデル性能,特徴サブセットの冗長度測定などからなる多数の特徴選択サンプルを自動的に収集するデータ収集手法を提案する。
収集したデータに基づいて,効率的な探索のために,特徴選択の知性を連続的な埋め込み空間に保存するエンコーダ・デコーダ・評価学習パラダイムを開発した。
論文 参考訳(メタデータ) (2024-04-26T05:01:08Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Multi-objective Binary Coordinate Search for Feature Selection [0.24578723416255746]
大規模特徴選択問題の解法として,二元多目的座標探索(MOCS)アルゴリズムを提案する。
その結果,実世界の5つの大規模データセットにおいて,NSGA-IIよりも提案手法が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-02-20T00:50:26Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。