論文の概要: OpenFE: Automated Feature Generation beyond Expert-level Performance
- arxiv url: http://arxiv.org/abs/2211.12507v1
- Date: Tue, 22 Nov 2022 03:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:41:22.765615
- Title: OpenFE: Automated Feature Generation beyond Expert-level Performance
- Title(参考訳): OpenFE: 専門家レベルのパフォーマンスを超えた自動機能生成
- Authors: Tianping Zhang, Zheyu Zhang, Zhiyuan Fan, Haoyan Luo, Fengyuan Liu,
Wei Cao, Jian Li
- Abstract要約: 私たちは、機械学習の専門家に対して競争力のある結果を提供する自動機能生成ツールOpenFEを紹介します。
コンペの1つでは、単純なベースラインモデルでOpenFEが生成した機能が99.3%のデータサイエンスチームを上回っている。
- 参考スコア(独自算出の注目度): 10.304103581734225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of automated feature generation is to liberate machine learning
experts from the laborious task of manual feature generation, which is crucial
for improving the learning performance of tabular data. The major challenge in
automated feature generation is to efficiently and accurately identify useful
features from a vast pool of candidate features. In this paper, we present
OpenFE, an automated feature generation tool that provides competitive results
against machine learning experts. OpenFE achieves efficiency and accuracy with
two components: 1) a novel feature boosting method for accurately estimating
the incremental performance of candidate features. 2) a feature-scoring
framework for retrieving effective features from a large number of candidates
through successive featurewise halving and feature importance attribution.
Extensive experiments on seven benchmark datasets show that OpenFE outperforms
existing baseline methods. We further evaluate OpenFE in two famous Kaggle
competitions with thousands of data science teams participating. In one of the
competitions, features generated by OpenFE with a simple baseline model can
beat 99.3\% data science teams. In addition to the empirical results, we
provide a theoretical perspective to show that feature generation is beneficial
in a simple yet representative setting. The code is available at
https://github.com/ZhangTP1996/OpenFE.
- Abstract(参考訳): 自動機能生成の目標は、手動機能生成の面倒なタスクから機械学習の専門家を解放することにある。
自動機能生成における大きな課題は、多数の候補機能から有用な機能を効率的かつ正確に識別することである。
本稿では、機械学習の専門家と競合する結果を提供する自動機能生成ツールであるopenfeを提案する。
OpenFEは2つのコンポーネントで効率と精度を達成する。
1)候補特徴の漸進的性能を正確に推定する新しい特徴増強法。
2)多数の候補から連続した特徴半減期と特徴重要属性を通じて有効な特徴を抽出する特徴標示フレームワーク。
7つのベンチマークデータセットに対する大規模な実験は、OpenFEが既存のベースラインメソッドより優れていることを示している。
さらに、何千ものデータサイエンスチームが参加する2つの有名なKaggleコンペティションでOpenFEを評価します。
コンペの1つでは、単純なベースラインモデルでOpenFEが生成した機能が99.3\%のデータサイエンスチームを上回っている。
実験結果に加えて,特徴生成が単純かつ代表的な設定で有用であることを示す理論的視点を提供する。
コードはhttps://github.com/ZhangTP 1996/OpenFEで公開されている。
関連論文リスト
- IIFE: Interaction Information Based Automated Feature Engineering [11.866061471514582]
我々は,どの特徴対が相乗効果を持つかを決定することに基づいて,新しいAutoFEアルゴリズム,IIFEを導入する。
既存のAutoFEアルゴリズムを改善するために,インタラクション情報をどのように利用できるかを示す。
論文 参考訳(メタデータ) (2024-09-07T00:34:26Z) - FedSDG-FS: Efficient and Secure Feature Selection for Vertical Federated
Learning [21.79965380400454]
Vertical Learning(VFL)は、複数のデータオーナに対して、大きな重複するデータサンプルセットに関する機能のサブセットをそれぞれ保持して、有用なグローバルモデルを共同でトレーニングすることを可能にする。
VFLのために設計された既存のFSは、ノイズの多い特徴の数について事前知識を仮定するか、有用な特徴の訓練後のしきい値について事前知識を仮定する。
本稿では,FedSDG-FS(Federated Dual-Gate Based Feature Selection)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-21T03:09:45Z) - Toward Efficient Automated Feature Engineering [27.47868891738917]
自動特徴工学(AFE)は、下流タスクのための最適な特徴集合を自動生成し、選択することを指す。
現在のAFE手法は、主に生成された機能の有効性の改善に重点を置いているが、大規模展開における低効率の問題を無視している。
強化学習設定に基づいてAFEパイプラインを構築し,各特徴をエージェントに割り当てて特徴変換を行う。
分類タスクと回帰タスクの両方の観点から,36のデータセットに関する総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-26T13:18:51Z) - GraphLearner: Graph Node Clustering with Fully Learnable Augmentation [76.63963385662426]
Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
我々は、GraphLearnerと呼ばれる、完全学習可能な拡張を備えたグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
論文 参考訳(メタデータ) (2022-12-07T10:19:39Z) - Explored An Effective Methodology for Fine-Grained Snake Recognition [8.908667065576632]
我々は,様々なメタ情報を活用し,きめ細かい識別を支援するために,強力なマルチモーダルバックボーンを設計する。
ラベルのないデータセットを最大限に活用するために,自己教師付き学習と教師付き学習共同学習を用いる。
本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。
論文 参考訳(メタデータ) (2022-07-24T02:19:15Z) - GANDALF: Gated Adaptive Network for Deep Automated Learning of Features [0.0]
GANDALF (Deep Automated Learning of Features) のためのGated Adaptive Network
GANDALF は Gated Feature Learning Unit (GFLU) と呼ばれるゲーティング機構を備えた新しい表処理ユニットに依存している。
我々は、GANDALFがXGBoost、SAINT、FT-TransformersなどのSOTAアプローチより優れているか、劣っていることを実証する。
論文 参考訳(メタデータ) (2022-07-18T12:12:24Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Deep Reinforcement Learning of Graph Matching [63.469961545293756]
ノードとペアの制約下でのグラフマッチング(GM)は、最適化からコンピュータビジョンまでの領域におけるビルディングブロックである。
GMのための強化学習ソルバを提案する。
rgmはペアワイズグラフ間のノード対応を求める。
本手法は,フロントエンドの特徴抽出と親和性関数学習に焦点をあてるという意味において,従来のディープグラフマッチングモデルと異なる。
論文 参考訳(メタデータ) (2020-12-16T13:48:48Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。