論文の概要: GPT for Semi-Automated Data Science: Introducing CAAFE for Context-Aware
Automated Feature Engineering
- arxiv url: http://arxiv.org/abs/2305.03403v1
- Date: Fri, 5 May 2023 09:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 14:29:21.834093
- Title: GPT for Semi-Automated Data Science: Introducing CAAFE for Context-Aware
Automated Feature Engineering
- Title(参考訳): 半自動データサイエンスのためのGPT:文脈対応機能工学のためのCAAFEの導入
- Authors: Noah Hollmann, Samuel M\"uller and Frank Hutter
- Abstract要約: 本稿では、文脈認識自動特徴工学(CAAFE)を導入し、記述に基づくデータセットの意味論的意味のある特徴を生成する。
方法論的に単純であるにも関わらず、CAAFEは14のデータセットのうち11、および2と1のルーズとの関係を改善している。
提案手法は,生成した各特徴についてテキストによる説明を提供することにより,生成した特徴の背景にある理論的根拠について貴重な知見を提供する。
- 参考スコア(独自算出の注目度): 37.50114448712515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the field of automated machine learning (AutoML) advances, it becomes
increasingly important to include domain knowledge within these systems. We
present an approach for doing so by harnessing the power of large language
models (LLMs). Specifically, we introduce Context-Aware Automated Feature
Engineering (CAAFE), a feature engineering method for tabular datasets that
utilizes an LLM to generate additional semantically meaningful features for
tabular datasets based on their descriptions. The method produces both Python
code for creating new features and explanations for the utility of the
generated features.
Despite being methodologically simple, CAAFE enhances performance on 11 out
of 14 datasets, ties on 2 and looses on 1 - boosting mean ROC AUC performance
from 0.798 to 0.822 across all datasets. On the evaluated datasets, this
improvement is similar to the average improvement achieved by using a random
forest (AUC 0.782) instead of logistic regression (AUC 0.754).
Furthermore, our method offers valuable insights into the rationale behind
the generated features by providing a textual explanation for each generated
feature. CAAFE paves the way for more extensive (semi-)automation in data
science tasks and emphasizes the significance of context-aware solutions that
can extend the scope of AutoML systems. For reproducability, we release our
code and a simple demo.
- Abstract(参考訳): 自動機械学習(AutoML)の分野が進むにつれて、これらのシステムにドメイン知識を含めることがますます重要になる。
本稿では,大規模言語モデル(LLM)のパワーを利用する手法を提案する。
具体的には、LCMを利用した表層データセットの機能工学手法である文脈認識自動特徴工学(CAAFE)を導入し、その記述に基づいて、表層データセットに意味論的に意味のある機能を追加する。
このメソッドは、新しい機能を作成するためのPythonコードと、生成された機能のユーティリティの説明の両方を生成する。
方法論的に単純であるにも関わらず、CAAFEは14データセット中11データセットのパフォーマンス向上、2と1のルーズ – 平均ROC AUCパフォーマンスをすべてのデータセットで0.798から0.822に向上させる。
評価されたデータセットでは、この改善はロジスティック回帰(AUC 0.754)の代わりにランダム森林(AUC 0.782)を使うことで達成される平均的な改善と似ている。
さらに,本手法は,生成した各特徴についてテキストによる説明を提供することにより,生成した特徴の背景にある理論的根拠について貴重な知見を提供する。
CAAFEは、データサイエンスタスクにおけるより広範な(半自動)自動化の道を開き、AutoMLシステムの範囲を広げられるコンテキスト対応ソリューションの重要性を強調している。
再現性のために、コードと簡単なデモをリリースします。
関連論文リスト
- ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - STREAMLINE: A Simple, Transparent, End-To-End Automated Machine Learning
Pipeline Facilitating Data Analysis and Algorithm Comparison [0.49034553215430216]
STREAMLINEはシンプルで透明でエンドツーエンドのAutoMLパイプラインである。
データセット、MLアルゴリズム、その他のAutoMLツールのパフォーマンスを比較するように設計されている。
論文 参考訳(メタデータ) (2022-06-23T22:40:58Z) - Automatic Componentwise Boosting: An Interpretable AutoML System [1.1709030738577393]
本稿では,高度にスケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて適用可能な,解釈可能な付加モデルを構築するAutoMLシステムを提案する。
我々のシステムは、部分的な効果やペアの相互作用を可視化するなど、簡単なモデル解釈のためのツールを提供する。
解釈可能なモデル空間に制限があるにもかかわらず、我々のシステムは、ほとんどのデータセットにおける予測性能の点で競争力がある。
論文 参考訳(メタデータ) (2021-09-12T18:34:33Z) - Privileged Zero-Shot AutoML [16.386335031156]
この作業は、データセットと関数記述を使用することで、自動機械学習(AutoML)システムの品質を改善する。
ゼロショットのAutoMLは、実行時間と予測時間を数分からミリ秒に短縮する。
論文 参考訳(メタデータ) (2021-06-25T16:31:05Z) - DriveML: An R Package for Driverless Machine Learning [7.004573941239386]
DriveMLは、自動機械学習パイプラインのいくつかの柱の実装を支援する。
DriveMLの主な利点は、開発時間の節約、開発者のエラー低減、マシンラーニングモデルとエラーの最適チューニングである。
論文 参考訳(メタデータ) (2020-05-01T16:40:25Z) - Evolution of Scikit-Learn Pipelines with Dynamic Structured Grammatical
Evolution [1.5224436211478214]
本稿では、動的構造文法進化(DSGE)をScikit-Learn分類パイプラインの進化に適応させる新しい文法ベースのフレームワークについて述べる。
実験結果は、AutoML-DSGEを他の文法ベースのAutoMLフレームワークであるResilient ClassificationPipeline Evolution (RECIPE)と比較することを含む。
論文 参考訳(メタデータ) (2020-04-01T09:31:34Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。