論文の概要: Pre-Hoc Predictions in AutoML: Leveraging LLMs to Enhance Model Selection and Benchmarking for Tabular datasets
- arxiv url: http://arxiv.org/abs/2510.01842v1
- Date: Thu, 02 Oct 2025 09:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.080743
- Title: Pre-Hoc Predictions in AutoML: Leveraging LLMs to Enhance Model Selection and Benchmarking for Tabular datasets
- Title(参考訳): AutoMLにおけるプレホック予測: タブラルデータセットのモデル選択とベンチマークにLLMを活用する
- Authors: Yannis Belkhiter, Seshu Tirupathi, Giulio Zizzo, Sachin Sharma, John D. Kelleher,
- Abstract要約: 本稿では,AutoMLとpre-hocモデル選択の交点について検討する。
従来のモデルとLarge Language Model (LLM) エージェントを活用することで、AutoML検索スペースを削減できる。
提案されたアプローチは、AutoMLのシフトを提供し、計算オーバーヘッドを大幅に削減するとともに、与えられたデータセットに最適なモデルを選択している。
- 参考スコア(独自算出の注目度): 4.960830501953278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of AutoML has made remarkable progress in post-hoc model selection, with libraries capable of automatically identifying the most performing models for a given dataset. Nevertheless, these methods often rely on exhaustive hyperparameter searches, where methods automatically train and test different types of models on the target dataset. Contrastingly, pre-hoc prediction emerges as a promising alternative, capable of bypassing exhaustive search through intelligent pre-selection of models. Despite its potential, pre-hoc prediction remains under-explored in the literature. This paper explores the intersection of AutoML and pre-hoc model selection by leveraging traditional models and Large Language Model (LLM) agents to reduce the search space of AutoML libraries. By relying on dataset descriptions and statistical information, we reduce the AutoML search space. Our methodology is applied to the AWS AutoGluon portfolio dataset, a state-of-the-art AutoML benchmark containing 175 tabular classification datasets available on OpenML. The proposed approach offers a shift in AutoML workflows, significantly reducing computational overhead, while still selecting the best model for the given dataset.
- Abstract(参考訳): AutoMLの分野は、あるデータセットで最もパフォーマンスの良いモデルを自動的に識別できるライブラリによって、ポストホックモデル選択において顕著な進歩を遂げている。
それでもこれらの手法は、ターゲットデータセット上の異なるタイプのモデルを自動でトレーニングし、テストする、網羅的なハイパーパラメータサーチに依存していることが多い。
対照的に、事前の予測は有望な代替手段として現れ、インテリジェントな事前選択によって徹底的な探索を回避できる。
その可能性にもかかわらず、予報は文献では未発見のままである。
本稿では,従来のモデルとLarge Language Model (LLM) エージェントを活用し,AutoMLライブラリの検索スペースを削減することで,AutoMLとプレホックモデルの選択の交点について検討する。
データセットの記述や統計情報に頼ることで、AutoML検索スペースを削減できる。
当社の方法論は,OpenMLで利用可能な175のグラフ分類データセットを含む最先端のAutoMLベンチマークである,AWS AutoGluonポートフォリオデータセットに適用される。
提案されたアプローチは、AutoMLワークフローのシフトを提供し、計算オーバーヘッドを大幅に削減するとともに、与えられたデータセットに最適なモデルを選択している。
関連論文リスト
- Empowering Time Series Forecasting with LLM-Agents [23.937463131291974]
時系列データ中心エージェントDCATSを提案する。
大規模交通量予測データセットを用いて,4つの時系列予測モデルを用いてDCATSを評価する。
論文 参考訳(メタデータ) (2025-08-06T09:14:08Z) - Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。
提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文 参考訳(メタデータ) (2025-04-02T20:33:27Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Neuro-Symbolic Language Modeling with Automaton-augmented Retrieval [129.25914272977542]
RetoMatonはデータストア上に構築された重み付き有限オートマトンである。
LM推論と並行して、このオートマトンを推論時にトラバースすることは、その複雑さを減少させる。
論文 参考訳(メタデータ) (2022-01-28T21:38:56Z) - Automatic Componentwise Boosting: An Interpretable AutoML System [1.1709030738577393]
本稿では,高度にスケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて適用可能な,解釈可能な付加モデルを構築するAutoMLシステムを提案する。
我々のシステムは、部分的な効果やペアの相互作用を可視化するなど、簡単なモデル解釈のためのツールを提供する。
解釈可能なモデル空間に制限があるにもかかわらず、我々のシステムは、ほとんどのデータセットにおける予測性能の点で競争力がある。
論文 参考訳(メタデータ) (2021-09-12T18:34:33Z) - Model LineUpper: Supporting Interactive Model Comparison at Multiple
Levels for AutoML [29.04776652873194]
現在のAutoMLシステムでは、選択はパフォーマンスメトリックによってのみサポートされる。
複数のXAI(Explainable AI)と可視化技術を組み合わせることで、AutoMLのインタラクティブなモデル比較を支援するツールを開発しています。
論文 参考訳(メタデータ) (2021-04-09T14:06:13Z) - Interpret-able feedback for AutoML systems [5.5524559605452595]
自動機械学習(AutoML)システムは、非ML専門家のための機械学習(ML)モデルのトレーニングを可能にすることを目的としている。
これらのシステムの欠点は、高い精度でモデルの生成に失敗した場合、モデルを改善するためのパスがないことである。
AutoML用の解釈可能なデータフィードバックソリューションを紹介します。
論文 参考訳(メタデータ) (2021-02-22T18:54:26Z) - AutoRec: An Automated Recommender System [44.11798716678736]
エコシステムから拡張された、オープンソースの自動機械学習(AutoML)プラットフォームであるAutoRecを紹介します。
AutoRecはスパースとディープインプットの両方に対応可能な、非常にフレキシブルなパイプラインをサポートする。
ベンチマークデータセットで実施された実験によると、AutoRecは信頼性が高く、事前の知識なしに最高のモデルに似たモデルを特定することができる。
論文 参考訳(メタデータ) (2020-06-26T17:04:53Z) - AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data [120.2298620652828]
オープンソースのAutoMLフレームワークであるAutoGluon-Tabularを紹介します。
KaggleとOpenML AutoML Benchmarkの50の分類および回帰タスクからなるスイートのテストによると、AutoGluonはより速く、より堅牢で、はるかに正確である。
論文 参考訳(メタデータ) (2020-03-13T23:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。