論文の概要: LLMs for Semi-Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering
- arxiv url: http://arxiv.org/abs/2305.03403v2
- Date: Mon, 22 May 2023 13:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 02:51:39.752476
- Title: LLMs for Semi-Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering
- Title(参考訳): 半自動データサイエンスのためのLLM:コンテキスト対応機能エンジニアリングのためのCAAFEの導入
- Authors: Noah Hollmann, Samuel M\"uller and Frank Hutter
- Abstract要約: データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
- 参考スコア(独自算出の注目度): 37.50114448712515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the field of automated machine learning (AutoML) advances, it becomes
increasingly important to incorporate domain knowledge into these systems. We
present an approach for doing so by harnessing the power of large language
models (LLMs). Specifically, we introduce Context-Aware Automated Feature
Engineering (CAAFE), a feature engineering method for tabular datasets that
utilizes an LLM to iteratively generate additional semantically meaningful
features for tabular datasets based on the description of the dataset. The
method produces both Python code for creating new features and explanations for
the utility of the generated features.
Despite being methodologically simple, CAAFE improves performance on 11 out
of 14 datasets - boosting mean ROC AUC performance from 0.798 to 0.822 across
all dataset - similar to the improvement achieved by using a random forest
instead of logistic regression on our datasets.
Furthermore, CAAFE is interpretable by providing a textual explanation for
each generated feature. CAAFE paves the way for more extensive semi-automation
in data science tasks and emphasizes the significance of context-aware
solutions that can extend the scope of AutoML systems to semantic AutoML. We
release our $\href{https://github.com/automl/CAAFE}{code}$, a simple
$\href{https://colab.research.google.com/drive/1mCA8xOAJZ4MaB_alZvyARTMjhl6RZf0a}{demo}$
and a $\href{https://pypi.org/project/caafe/}{python\ package}$.
- Abstract(参考訳): 自動機械学習(AutoML)の分野が進むにつれて、これらのシステムにドメイン知識を統合することがますます重要になる。
本稿では,大規模言語モデル(LLM)のパワーを利用する手法を提案する。
具体的には,表型データセットのための機能エンジニアリング手法であるcaafe(context-aware automated feature engineering)を導入する。llmを利用して,表型データセットに対して,その記述に基づいて意味的に意味のある機能を反復生成する。
このメソッドは、新しい機能を作成するためのPythonコードと、生成された機能のユーティリティの説明の両方を生成する。
方法論的に単純であるにも関わらず、CAAFEは14データセット中11データセットのパフォーマンスを改善し、平均ROC AUCパフォーマンスを全データセットで0.798から0.822に向上させます。
さらに、CAAFEは、生成された各特徴についてテキストによる説明を提供することで解釈できる。
CAAFEは、データサイエンスタスクにおけるより広範な半自動化の道を開き、AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト対応ソリューションの重要性を強調している。
a $\href{https://github.com/automl/CAAFE}{code}$, a simple $\href{https://colab.research.google.com/drive/1mCA8xOAZ4MaB_alZvyARTMjhl6RZf0a}{demo}$と a $\href{https://pypi.org/project/caafe/}{python\ package}$をリリースした。
関連論文リスト
- ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [3.9773527114058855]
本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。
開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。
改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文 参考訳(メタデータ) (2024-06-13T23:08:06Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - STREAMLINE: A Simple, Transparent, End-To-End Automated Machine Learning
Pipeline Facilitating Data Analysis and Algorithm Comparison [0.49034553215430216]
STREAMLINEはシンプルで透明でエンドツーエンドのAutoMLパイプラインである。
データセット、MLアルゴリズム、その他のAutoMLツールのパフォーマンスを比較するように設計されている。
論文 参考訳(メタデータ) (2022-06-23T22:40:58Z) - Automatic Componentwise Boosting: An Interpretable AutoML System [1.1709030738577393]
本稿では,高度にスケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて適用可能な,解釈可能な付加モデルを構築するAutoMLシステムを提案する。
我々のシステムは、部分的な効果やペアの相互作用を可視化するなど、簡単なモデル解釈のためのツールを提供する。
解釈可能なモデル空間に制限があるにもかかわらず、我々のシステムは、ほとんどのデータセットにおける予測性能の点で競争力がある。
論文 参考訳(メタデータ) (2021-09-12T18:34:33Z) - Privileged Zero-Shot AutoML [16.386335031156]
この作業は、データセットと関数記述を使用することで、自動機械学習(AutoML)システムの品質を改善する。
ゼロショットのAutoMLは、実行時間と予測時間を数分からミリ秒に短縮する。
論文 参考訳(メタデータ) (2021-06-25T16:31:05Z) - DriveML: An R Package for Driverless Machine Learning [7.004573941239386]
DriveMLは、自動機械学習パイプラインのいくつかの柱の実装を支援する。
DriveMLの主な利点は、開発時間の節約、開発者のエラー低減、マシンラーニングモデルとエラーの最適チューニングである。
論文 参考訳(メタデータ) (2020-05-01T16:40:25Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。