論文の概要: Towards Reliable ML Feature Engineering via Planning in Constrained-Topology of LLM Agents
- arxiv url: http://arxiv.org/abs/2601.10820v1
- Date: Thu, 15 Jan 2026 19:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.276833
- Title: Towards Reliable ML Feature Engineering via Planning in Constrained-Topology of LLM Agents
- Title(参考訳): LLMエージェントの制約トポロジーにおける計画による信頼性ML特徴工学への取り組み
- Authors: Himanshu Thakur, Anusha Kamath, Anurag Muthyala, Dhwani Sanmukhani, Smruthi Mukund, Jay Katukuri,
- Abstract要約: コード生成モデルの最近の進歩は、機能エンジニアリングを自動化する前例のない機会を解き放ちました。
現実のMLチームにおける彼らの採用は、依然として重要な課題に制約されている。
我々はこれらの課題に,プランナーによる制約付きトポロジーマルチエージェントフレームワークで対処する。
- 参考スコア(独自算出の注目度): 1.991571265620589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in code generation models have unlocked unprecedented opportunities for automating feature engineering, yet their adoption in real-world ML teams remains constrained by critical challenges: (i) the scarcity of datasets capturing the iterative and complex coding processes of production-level feature engineering, (ii) limited integration and personalization of widely used coding agents, such as CoPilot and Devin, with a team's unique tools, codebases, workflows, and practices, and (iii) suboptimal human-AI collaboration due to poorly timed or insufficient feedback. We address these challenges with a planner-guided, constrained-topology multi-agent framework that generates code for repositories in a multi-step fashion. The LLM-powered planner leverages a team's environment, represented as a graph, to orchestrate calls to available agents, generate context-aware prompts, and use downstream failures to retroactively correct upstream artifacts. It can request human intervention at critical steps, ensuring generated code is reliable, maintainable, and aligned with team expectations. On a novel in-house dataset, our approach achieves 38% and 150% improvement in the evaluation metric over manually crafted and unplanned workflows respectively. In practice, when building features for recommendation models serving over 120 million users, our approach has delivered real-world impact by reducing feature engineering cycles from three weeks to a single day.
- Abstract(参考訳): コード生成モデルの最近の進歩は、機能エンジニアリングを自動化するための前例のない機会を解き放ちました。
i) 生産レベルの機能エンジニアリングの反復的かつ複雑なコーディングプロセスをキャプチャするデータセットの不足。
(ii)CoPilotやDevinといった広く使われているコーディングエージェントと、チームのユニークなツール、コードベース、ワークフロー、プラクティスとの限定的な統合とパーソナライズ。
3) 時間やフィードバックが不十分なため, 人・AIの連携が不十分であったこと。
我々はこれらの課題に,複数ステップでリポジトリのコードを生成する,プランナーによる制約付きトポロジーのマルチエージェントフレームワークで対処する。
LLMを利用するプランナーは、グラフとして表されるチームの環境を活用し、利用可能なエージェントへの呼び出しをオーケストレーションし、コンテキスト対応のプロンプトを生成し、上流のアーティファクトを遡って修正するために下流の障害を使用する。
重要なステップで人間の介入を要求でき、生成されたコードが信頼性があり、保守可能で、チームの期待に沿うことを保証できます。
新たな社内データセットでは,手作業によるワークフローと無計画のワークフローに対して,評価基準の38%と150%の改善が達成されている。
実際には、レコメンデーションモデルの機能を1億2000万以上のユーザに提供したとき、私たちのアプローチは、機能エンジニアリングのサイクルを3週間から1日に短縮することで、現実世界に影響を与えました。
関連論文リスト
- Automated Multi-Agent Workflows for RTL Design [13.229297320467332]
本稿では,RTLコード生成のためのエージェントタスクを自動生成するマルチエージェントフレームワークであるVeriMaASを提案する。
提案手法は,微調整ベースライン上でのpass@kの合成性能を5-7%向上させる。
論文 参考訳(メタデータ) (2025-09-24T14:44:28Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [62.854649499866774]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Human-In-the-Loop Software Development Agents [12.830816751625829]
大規模言語モデル(LLM)ベースのソフトウェアエンジニアリングのためのマルチエージェントパラダイムを導入し、ソフトウェア開発タスクを自動的に解決する。
本稿では,ソフトウェア開発のためのHuman-in-the-loop LLMベースのエージェントフレームワーク(HULA)を紹介する。
私たちは社内使用のために、HULAフレームワークをAtlassianに設計、実装、デプロイしています。
論文 参考訳(メタデータ) (2024-11-19T23:22:33Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Trust the PRoC3S: Solving Long-Horizon Robotics Problems with LLMs and Constraint Satisfaction [38.683780057806516]
ロボット工学を応用した事前学習型大規模言語モデル(LLM)の最近の進歩は、単純なロボットタスクにおいてオープンな目標を達成するために、個々のスキルのセットをシークエンシングする能力を示している。
本稿では,機械的,幾何学的,物理的制約の集合の違反を避けることが必要な,連続パラメータ化スキルの集合に対するLLM計画の課題について検討する。
3つの異なる3次元領域にわたる実験により、提案手法であるPRoC3Sは、既存のベースラインよりもはるかに効率的かつ効果的に、連続パラメータに現実的な制約を課した幅広い複雑な操作タスクを解くことができることを示した。
論文 参考訳(メタデータ) (2024-06-08T20:56:14Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。