論文の概要: Neuro-Symbolic Embedding for Short and Effective Feature Selection via Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2404.17157v1
- Date: Fri, 26 Apr 2024 05:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:04:24.276718
- Title: Neuro-Symbolic Embedding for Short and Effective Feature Selection via Autoregressive Generation
- Title(参考訳): 自己回帰生成による短時間かつ効果的な特徴選択のためのニューロ・シンボリック・エンベディング
- Authors: Nanxu Gong, Wangyang Ying, Dongjie Wang, Yanjie Fu,
- Abstract要約: ニューロシンボリックレンズを用いて特徴選択を再構成し、短時間かつ効果的な特徴サブセットを特定することを目的とした新しい生成フレームワークを導入する。
本稿ではまず,特徴IDトークン,モデル性能,特徴サブセットの冗長度測定などからなる多数の特徴選択サンプルを自動的に収集するデータ収集手法を提案する。
収集したデータに基づいて,効率的な探索のために,特徴選択の知性を連続的な埋め込み空間に保存するエンコーダ・デコーダ・評価学習パラダイムを開発した。
- 参考スコア(独自算出の注目度): 22.87577374767465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection aims to identify the optimal feature subset for enhancing downstream models. Effective feature selection can remove redundant features, save computational resources, accelerate the model learning process, and improve the model overall performance. However, existing works are often time-intensive to identify the effective feature subset within high-dimensional feature spaces. Meanwhile, these methods mainly utilize a single downstream task performance as the selection criterion, leading to the selected subsets that are not only redundant but also lack generalizability. To bridge these gaps, we reformulate feature selection through a neuro-symbolic lens and introduce a novel generative framework aimed at identifying short and effective feature subsets. More specifically, we found that feature ID tokens of the selected subset can be formulated as symbols to reflect the intricate correlations among features. Thus, in this framework, we first create a data collector to automatically collect numerous feature selection samples consisting of feature ID tokens, model performance, and the measurement of feature subset redundancy. Building on the collected data, an encoder-decoder-evaluator learning paradigm is developed to preserve the intelligence of feature selection into a continuous embedding space for efficient search. Within the learned embedding space, we leverage a multi-gradient search algorithm to find more robust and generalized embeddings with the objective of improving model performance and reducing feature subset redundancy. These embeddings are then utilized to reconstruct the feature ID tokens for executing the final feature selection. Ultimately, comprehensive experiments and case studies are conducted to validate the effectiveness of the proposed framework.
- Abstract(参考訳): 機能選択は、下流モデルを強化するのに最適な機能サブセットを特定することを目的としている。
効果的な機能選択は、冗長な機能を取り除き、計算リソースを節約し、モデル学習プロセスを加速し、全体的なパフォーマンスを改善する。
しかし、既存の研究はしばしば、高次元の特徴空間における効果的な特徴部分集合を特定するために時間集約的である。
一方、これらの手法は主に選択基準として単一のダウンストリームタスク性能を利用しており、選択されたサブセットは冗長であるだけでなく、一般化性も欠いている。
これらのギャップを埋めるために、我々はニューロシンボリックレンズを通して特徴選択を再構成し、短く効果的な特徴サブセットを特定することを目的とした新しい生成フレームワークを導入する。
より具体的には、選択したサブセットの特徴IDトークンは、特徴間の複雑な相関を反映するシンボルとして定式化できることがわかった。
そこで,本フレームワークではまず,特徴IDトークン,モデル性能,特徴サブセットの冗長度測定などからなる多数の特徴選択サンプルを自動的に収集するデータコレクタを作成する。
収集したデータに基づいてエンコーダ・デコーダ・評価学習パラダイムを開発し,特徴選択のインテリジェンスを連続的な埋め込み空間に保存し,効率的な探索を行う。
学習した埋め込み空間内では、より堅牢で一般化された埋め込みを見つけるために、多段階探索アルゴリズムを活用し、モデル性能を改善し、特徴部分の冗長性を減少させることを目的としている。
これらの埋め込みは、最終機能選択を実行するために特徴IDトークンを再構築するために使用される。
最終的に、提案フレームワークの有効性を検証するための総合的な実験とケーススタディが実施される。
関連論文リスト
- Large-scale Multi-objective Feature Selection: A Multi-phase Search Space Shrinking Approach [0.27624021966289597]
特徴の選択は、特に高次元データセットにおいて、機械学習において重要なステップである。
本稿では,LMSSSと呼ばれる探索空間の縮小に基づく大規模多目的進化アルゴリズムを提案する。
提案アルゴリズムの有効性は、15の大規模データセットに対する包括的実験によって実証される。
論文 参考訳(メタデータ) (2024-10-13T23:06:10Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Beyond Discrete Selection: Continuous Embedding Space Optimization for
Generative Feature Selection [34.32619834917906]
我々は、特徴選択問題を深い微分可能な最適化タスクとして再構成する。
本稿では,離散的特徴部分集合を連続的な埋め込み空間として概念化する,新しい原理的な研究視点を提案する。
具体的には、強化特徴選択学習を利用して、多種多様な高品質なトレーニングデータを生成する。
論文 参考訳(メタデータ) (2023-02-26T03:18:45Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。