論文の概要: LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization
- arxiv url: http://arxiv.org/abs/2603.07897v1
- Date: Mon, 09 Mar 2026 02:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.348437
- Title: LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization
- Title(参考訳): LeJOT-AutoML:Databricksコスト最適化におけるジョブ実行時間予測のためのLLM駆動機能エンジニアリング
- Authors: Lizhi Ma, Yi-Xiang Hu, Yihui Ren, Feng Wu, Xiang-Yang Li,
- Abstract要約: Databricksのジョブオーケストレーションシステム(例:LeJOT)は、レイテンシと依存性の制約を満たしながら、低価格の計算を選択することで、クラウドコストを削減する。
既存のパイプラインは、静的で手動で構築されたランタイム効果に依存している。
エージェント駆動型AutoMLフレームワークであるLeJOT-AutoMLについて,MLライフサイクルを通じて大規模言語モデルエージェントを組み込む。
- 参考スコア(独自算出の注目度): 27.72622904072875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Databricks job orchestration systems (e.g., LeJOT) reduce cloud costs by selecting low-priced compute configurations while meeting latency and dependency constraints. Accurate execution-time prediction under heterogeneous instance types and non-stationary runtime conditions is therefore critical. Existing pipelines rely on static, manually engineered features that under-capture runtime effects (e.g., partition pruning, data skew, and shuffle amplification), and predictive signals are scattered across logs, metadata, and job scripts-lengthening update cycles and increasing engineering overhead. We present LeJOT-AutoML, an agent-driven AutoML framework that embeds large language model agents throughout the ML lifecycle. LeJOT-AutoML combines retrieval-augmented generation over a domain knowledge base with a Model Context Protocol toolchain (log parsers, metadata queries, and a read-only SQL sandbox) to analyze job artifacts, synthesize and validate feature-extraction code via safety gates, and train/select predictors. This design materializes runtime-derived features that are difficult to obtain through static analysis alone. On enterprise Databricks workloads, LeJOT-AutoML generates over 200 features and reduces the feature-engineering and evaluation loop from weeks to 20-30 minutes, while maintaining competitive prediction accuracy. Integrated into the LeJOT pipeline, it enables automated continuous model updates and achieves 19.01% cost savings in our deployment setting through improved orchestration.
- Abstract(参考訳): Databricksのジョブオーケストレーションシステム(例:LeJOT)は、レイテンシと依存性の制約を満たしながら、低価格の計算構成を選択することで、クラウドコストを削減する。
したがって、不均一なインスタンスタイプと非定常ランタイム条件下での正確な実行時間予測が重要である。
既存のパイプラインは、キャプチャ下のランタイム効果(パーティションプルーニング、データスキュー、シャッフル増幅など)を静的に手動で設計した機能に依存しており、予測信号はログ、メタデータ、ジョブスクリプト延長更新サイクルに分散し、エンジニアリングオーバーヘッドが増加する。
本稿では,大規模な言語モデルエージェントをMLライフサイクル全体に組み込む,エージェント駆動型AutoMLフレームワークであるLeJOT-AutoMLを紹介する。
LeJOT-AutoMLはドメイン知識ベース上での検索拡張生成とモデルコンテキストプロトコルツールチェーン(ログパーサ、メタデータクエリ、読み取り専用SQLサンドボックス)を組み合わせることで、ジョブアーティファクトの分析、安全ゲート経由の機能抽出コードの合成と検証、およびトレーニング/セレクション予測を行う。
この設計は静的解析だけでは入手が難しいランタイム由来の機能を実現する。
エンタープライズDatabricksワークロードでは、LeJOT-AutoMLは200以上の機能を生成し、機能エンジニアリングと評価ループを数週間から20~30分に短縮するとともに、競合予測の精度を維持している。
LeJOTパイプラインに統合され、継続的モデルの自動更新を可能にし、オーケストレーションの改善を通じてデプロイメント設定における19.01%のコスト削減を実現している。
関連論文リスト
- Machine Learning as a Tool (MLAT): A Framework for Integrating Statistical ML Models as Callable Tools within LLM Agent Workflows [0.152622865871084]
機械学習・アズ・ア・ツール(MLAT: Machine Learning as a Tool)は、学習前の統計的機械学習モデルを大言語モデル(LLM)エージェント内で呼び出し可能なツールとして公開するデザインパターンである。
ML推論を静的な前処理ステップとして扱う従来のパイプラインとは異なり、MLATでは、モデルをWeb検索、データベースクエリ、APIとともにファーストクラスのツールとして位置付けている。
我々は、発見通話記録をML予測価格でプロの提案に変換するパイロット生産システムであるPitchCraftを紹介する。
論文 参考訳(メタデータ) (2026-02-15T20:00:28Z) - GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics [9.549568621873386]
GateLensは、自動車分野のデータ分析のためのLLMベースのシステムである。
遅くて不透明でメンテナンスにコストがかかる従来のマルチエージェントや計画ベースのシステムとは異なり、GateLensはスピード、透明性、信頼性を強調している。
論文 参考訳(メタデータ) (2025-03-27T17:48:32Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - eTOP: Early Termination of Pipelines for Faster Training of AutoML
Systems [12.933957727351666]
適切なAI/MLモデルを見つけるのは、複雑でコストのかかるプロセスです。
我々は,任意のAutoMLシステム上で動作するeTOPフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:22:30Z) - AutoEn: An AutoML method based on ensembles of predefined Machine
Learning pipelines for supervised Traffic Forecasting [1.6242924916178283]
交通予測(TF)は、将来の交通状況を予測することで交通渋滞を緩和する能力により、関連性が高まっている。
TFは、モデル選択問題(MSP)として知られる機械学習パラダイムに大きな課題を提起する。
事前に定義されたMLパイプラインの集合からマルチクラス化アンサンブルを自動生成する,シンプルで効率的な手法であるAutoEnを紹介する。
論文 参考訳(メタデータ) (2023-03-19T18:37:18Z) - SubStrat: A Subset-Based Strategy for Faster AutoML [5.833272638548153]
SubStratは、設定スペースではなく、データサイズに取り組むAutoML最適化戦略である。
既存のAutoMLツールをラップし、データセット全体を直接実行する代わりに、SubStratは遺伝的アルゴリズムを使用して小さなサブセットを見つける。
その後、小さなサブセットにAutoMLツールを使用し、最後に、大きなデータセット上で制限された、はるかに短いAutoMLプロセスを実行することで、結果のパイプラインを洗練する。
論文 参考訳(メタデータ) (2022-06-07T07:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。