論文の概要: OpenFE: Automated Feature Generation with Expert-level Performance
- arxiv url: http://arxiv.org/abs/2211.12507v3
- Date: Mon, 5 Jun 2023 13:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 03:54:27.829073
- Title: OpenFE: Automated Feature Generation with Expert-level Performance
- Title(参考訳): OpenFE: 専門家レベルのパフォーマンスを備えた自動機能生成
- Authors: Tianping Zhang, Zheyu Zhang, Zhiyuan Fan, Haoyan Luo, Fengyuan Liu,
Qian Liu, Wei Cao, Jian Li
- Abstract要約: 私たちは、機械学習の専門家に対して競争力のある結果を提供する自動機能生成ツールOpenFEを紹介します。
OpenFEは、2つのコンポーネントで高い効率と精度を実現している。1)候補機能のインクリメンタルな性能を正確に評価する新しい特徴増強法、2)粗い方法で特徴刈りを行う2段階のプルーニングアルゴリズムである。
- 参考スコア(独自算出の注目度): 12.953889090552616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of automated feature generation is to liberate machine learning
experts from the laborious task of manual feature generation, which is crucial
for improving the learning performance of tabular data. The major challenge in
automated feature generation is to efficiently and accurately identify
effective features from a vast pool of candidate features. In this paper, we
present OpenFE, an automated feature generation tool that provides competitive
results against machine learning experts. OpenFE achieves high efficiency and
accuracy with two components: 1) a novel feature boosting method for accurately
evaluating the incremental performance of candidate features and 2) a two-stage
pruning algorithm that performs feature pruning in a coarse-to-fine manner.
Extensive experiments on ten benchmark datasets show that OpenFE outperforms
existing baseline methods by a large margin. We further evaluate OpenFE in two
Kaggle competitions with thousands of data science teams participating. In the
two competitions, features generated by OpenFE with a simple baseline model can
beat 99.3% and 99.6% data science teams respectively. In addition to the
empirical results, we provide a theoretical perspective to show that feature
generation can be beneficial in a simple yet representative setting. The code
is available at https://github.com/ZhangTP1996/OpenFE.
- Abstract(参考訳): 自動機能生成の目標は、手動機能生成の面倒なタスクから機械学習の専門家を解放することにある。
自動機能生成の最大の課題は、多数の候補機能から有効機能を効率よく正確に識別することである。
本稿では、機械学習の専門家と競合する結果を提供する自動機能生成ツールであるopenfeを提案する。
OpenFEは2つのコンポーネントで高い効率と精度を達成する。
1)候補特徴のインクリメンタルパフォーマンスを精度良く評価する新規特徴促進法とその評価
2) 2段階の刈り込みアルゴリズムは,細部まで粗い刈り込みを行う。
10のベンチマークデータセットに対する大規模な実験は、OpenFEが既存のベースラインメソッドを大きなマージンで上回っていることを示している。
さらに、何千ものデータサイエンスチームが参加する2つのKaggleコンペティションでOpenFEを評価します。
2つの競争において、単純なベースラインモデルでOpenFEが生成した機能は、それぞれ99.3%と99.6%のデータサイエンスチームを上回っている。
経験的な結果に加えて、機能生成は単純だが代表的な設定で有益であることを示す理論的視点を提供する。
コードはhttps://github.com/ZhangTP 1996/OpenFEで公開されている。
関連論文リスト
- IIFE: Interaction Information Based Automated Feature Engineering [11.866061471514582]
我々は,どの特徴対が相乗効果を持つかを決定することに基づいて,新しいAutoFEアルゴリズム,IIFEを導入する。
既存のAutoFEアルゴリズムを改善するために,インタラクション情報をどのように利用できるかを示す。
論文 参考訳(メタデータ) (2024-09-07T00:34:26Z) - FedSDG-FS: Efficient and Secure Feature Selection for Vertical Federated
Learning [21.79965380400454]
Vertical Learning(VFL)は、複数のデータオーナに対して、大きな重複するデータサンプルセットに関する機能のサブセットをそれぞれ保持して、有用なグローバルモデルを共同でトレーニングすることを可能にする。
VFLのために設計された既存のFSは、ノイズの多い特徴の数について事前知識を仮定するか、有用な特徴の訓練後のしきい値について事前知識を仮定する。
本稿では,FedSDG-FS(Federated Dual-Gate Based Feature Selection)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-21T03:09:45Z) - Toward Efficient Automated Feature Engineering [27.47868891738917]
自動特徴工学(AFE)は、下流タスクのための最適な特徴集合を自動生成し、選択することを指す。
現在のAFE手法は、主に生成された機能の有効性の改善に重点を置いているが、大規模展開における低効率の問題を無視している。
強化学習設定に基づいてAFEパイプラインを構築し,各特徴をエージェントに割り当てて特徴変換を行う。
分類タスクと回帰タスクの両方の観点から,36のデータセットに関する総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-26T13:18:51Z) - GraphLearner: Graph Node Clustering with Fully Learnable Augmentation [76.63963385662426]
Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
我々は、GraphLearnerと呼ばれる、完全学習可能な拡張を備えたグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
論文 参考訳(メタデータ) (2022-12-07T10:19:39Z) - Explored An Effective Methodology for Fine-Grained Snake Recognition [8.908667065576632]
我々は,様々なメタ情報を活用し,きめ細かい識別を支援するために,強力なマルチモーダルバックボーンを設計する。
ラベルのないデータセットを最大限に活用するために,自己教師付き学習と教師付き学習共同学習を用いる。
本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。
論文 参考訳(メタデータ) (2022-07-24T02:19:15Z) - GANDALF: Gated Adaptive Network for Deep Automated Learning of Features [0.0]
GANDALF (Deep Automated Learning of Features) のためのGated Adaptive Network
GANDALF は Gated Feature Learning Unit (GFLU) と呼ばれるゲーティング機構を備えた新しい表処理ユニットに依存している。
我々は、GANDALFがXGBoost、SAINT、FT-TransformersなどのSOTAアプローチより優れているか、劣っていることを実証する。
論文 参考訳(メタデータ) (2022-07-18T12:12:24Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Deep Reinforcement Learning of Graph Matching [63.469961545293756]
ノードとペアの制約下でのグラフマッチング(GM)は、最適化からコンピュータビジョンまでの領域におけるビルディングブロックである。
GMのための強化学習ソルバを提案する。
rgmはペアワイズグラフ間のノード対応を求める。
本手法は,フロントエンドの特徴抽出と親和性関数学習に焦点をあてるという意味において,従来のディープグラフマッチングモデルと異なる。
論文 参考訳(メタデータ) (2020-12-16T13:48:48Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。