論文の概要: AEFE: Automatic Embedded Feature Engineering for Categorical Features
- arxiv url: http://arxiv.org/abs/2110.09770v1
- Date: Tue, 19 Oct 2021 07:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:14:54.090897
- Title: AEFE: Automatic Embedded Feature Engineering for Categorical Features
- Title(参考訳): AEFE: カテゴリ機能のための自動組込み機能エンジニアリング
- Authors: Zhenyuan Zhong, Jie Yang, Yacong Ma, Shoubin Dong, Jinlong Hu
- Abstract要約: 本稿では,カスタムパラダイム機能構築や複数機能選択など,さまざまなコンポーネントから構成されるカテゴリ機能を表現するための自動機能エンジニアリングフレームワークを提案する。
いくつかの典型的なeコマースデータセットで実施された実験は、我々の手法が古典的な機械学習モデルや最先端のディープラーニングモデルよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 4.310748698480341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge of solving data mining problems in e-commerce applications such
as recommendation system (RS) and click-through rate (CTR) prediction is how to
make inferences by constructing combinatorial features from a large number of
categorical features while preserving the interpretability of the method. In
this paper, we propose Automatic Embedded Feature Engineering(AEFE), an
automatic feature engineering framework for representing categorical features,
which consists of various components including custom paradigm feature
construction and multiple feature selection. By selecting the potential field
pairs intelligently and generating a series of interpretable combinatorial
features, our framework can provide a set of unseen generated features for
enhancing model performance and then assist data analysts in discovering the
feature importance for particular data mining tasks. Furthermore, AEFE is
distributed implemented by task-parallelism, data sampling, and searching
schema based on Matrix Factorization field combination, to optimize the
performance and enhance the efficiency and scalability of the framework.
Experiments conducted on some typical e-commerce datasets indicate that our
method outperforms the classical machine learning models and state-of-the-art
deep learning models.
- Abstract(参考訳): 推薦システム(RS)やクリックスルーレート(CTR)予測などの電子商取引アプリケーションにおけるデータマイニングの課題は,多数のカテゴリの特徴から組合せ的特徴を構築し,解釈可能性を維持しながら推論する方法である。
本稿では,カスタムパラダイム機能構築や複数機能選択など,さまざまなコンポーネントで構成されるカテゴリ的特徴を表現する自動機能エンジニアリングフレームワークである,efe(automatic embedded feature engineering)を提案する。
潜在フィールドペアをインテリジェントに選択し,一連の解釈可能な組合せ的特徴を生成することにより,モデル性能を向上させるための未認識の機能セットを提供するとともに,特定のデータマイニングタスクにおける機能の重要性をデータアナリストが発見するのを支援する。
さらに、AEFEは、Matrix Factorizationフィールドの組み合わせに基づくタスク並列処理、データサンプリング、検索スキーマによって実装され、パフォーマンスを最適化し、フレームワークの効率性とスケーラビリティを向上させる。
典型的なeコマースデータセットで行った実験では、従来の機械学習モデルや最先端のディープラーニングモデルよりも優れています。
関連論文リスト
- Retrieval-Augmented Instruction Tuning for Automated Process Engineering Calculations : A Tool-Chaining Problem-Solving Framework with Attributable Reflection [0.0]
オープンでカスタマイズ可能な小型コード言語モデル(SLM)を強化するためにRAIT(Retrieval-Augmented Instruction-Tuning)を活用する新しい自律エージェントフレームワークを提案する。
命令チューニングされたコードSLMと外部ツールを使用してRACG(Retrieval-Augmented Code Generation)を組み合わせることで、エージェントは自然言語仕様からコードを生成し、デバッグし、最適化する。
我々のアプローチは、専門的なプロセスエンジニアリングタスクのための基礎的AIモデルの欠如の限界に対処し、説明可能性、知識編集、費用対効果の利点を提供する。
論文 参考訳(メタデータ) (2024-08-28T15:33:47Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DoE2Vec: Deep-learning Based Features for Exploratory Landscape Analysis [0.0]
本研究では,地形特性を最適化するための変分オートエンコーダ(VAE)に基づく手法であるDoE2Vecを提案する。
古典的な探索的景観解析(ELA)法とは異なり,本手法では特徴工学は必要としない。
検証のために、潜伏再構成の品質を検査し、異なる実験を用いて潜伏表現を解析する。
論文 参考訳(メタデータ) (2023-03-31T09:38:44Z) - Feature construction using explanations of individual predictions [0.0]
本稿では,予測モデルのインスタンスベース説明の集約に基づく探索空間の削減手法を提案する。
これらのグループに対する探索の削減が特徴構築の時間を大幅に短縮することを実証的に示す。
いくつかの分類器の分類精度を大幅に向上させ,大規模データセットにおいても提案する特徴構築の実現可能性を示した。
論文 参考訳(メタデータ) (2023-01-23T18:59:01Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Efficient Data-specific Model Search for Collaborative Filtering [56.60519991956558]
協調フィルタリング(CF)はレコメンダシステムの基本的なアプローチである。
本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルを設計することを提案する。
ここでキーとなるのは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、インタラクション、予測関数の非結合ステージに分割する新しいフレームワークである。
論文 参考訳(メタデータ) (2021-06-14T14:30:32Z) - AutoDis: Automatic Discretization for Embedding Numerical Features in
CTR Prediction [45.69943728028556]
高度な機能相互作用の学習は、レコメンデータシステムにおけるClick-Through Rate(CTR)予測に不可欠である。
様々な深いCTRモデルは、埋め込みとフィーチャーインタラクションのパラダイムに従います。
数値フィールドの特徴を自動的に識別し、エンドツーエンドでCTRモデルに最適化するフレームワークであるAutoDisを提案します。
論文 参考訳(メタデータ) (2020-12-16T14:31:31Z) - Towards Automated Neural Interaction Discovery for Click-Through Rate
Prediction [64.03526633651218]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最も重要な機械学習タスクの1つである。
本稿では,AutoCTR と呼ばれる CTR 予測のための自動インタラクションアーキテクチャ探索フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-29T04:33:01Z) - StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics [4.237343083490243]
機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されている。
StackGenVisは、スタック化された一般化のためのビジュアル分析システムである。
論文 参考訳(メタデータ) (2020-05-04T15:43:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。