論文の概要: kRAIG: A Natural Language-Driven Agent for Automated DataOps Pipeline Generation
- arxiv url: http://arxiv.org/abs/2603.20311v1
- Date: Thu, 19 Mar 2026 17:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.829281
- Title: kRAIG: A Natural Language-Driven Agent for Automated DataOps Pipeline Generation
- Title(参考訳): kRAIG: 自動データOpsパイプライン生成のための自然言語駆動エージェント
- Authors: Rohan Siva, Kai Cheung, Lichi Li, Ganesh Sundaram,
- Abstract要約: 我々は、自然言語仕様をプロダクション対応KubeReason Pipelines(KFP)に変換するAIエージェントであるkRAIGを紹介する。
ユーザ意図の曖昧さを解決するために,パイプライン合成に先立って意図を明確に示すインタラクションフレームワークReQuesActを提案する。
本フレームワークは,最先端のエージェントベースラインと比較して,抽出とロードの精度が3倍向上し,変換精度が25%向上する。
- 参考スコア(独自算出の注目度): 0.5833117322405447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning systems rely on complex data engineering workflows to extract, transform, and load (ELT) data into production pipelines. However, constructing these pipelines remains time-consuming and requires substantial expertise in data infrastructure and orchestration frameworks. Recent advances in large language model (LLM) agents offer a potential path toward automating these workflows, but existing approaches struggle with under-specified user intent, unreliable tool generation, and limited guarantees of executable outputs. We introduce kRAIG, an AI agent that translates natural language specifications into production-ready Kubeflow Pipelines (KFP). To resolve ambiguity in user intent, we propose ReQuesAct (Reason, Question, Act), an interaction framework that explicitly clarifies intent prior to pipeline synthesis. The system orchestrates end-to-end data movement from diverse sources and generates task-specific transformation components through a retrieval-augmented tool synthesis process. To ensure data quality and safety, kRAIG incorporates LLM-based validation stages that verify pipeline integrity prior to execution. Our framework achieves a 3x improvement in extraction and loading success and a 25 percent increase in transformation accuracy compared to state-of-the-art agentic baselines. These improvements demonstrate that structured agent workflows with explicit intent clarification and validation significantly enhance the reliability and executability of automated data engineering pipelines.
- Abstract(参考訳): 現代の機械学習システムは、ELT(ELT)データをプロダクションパイプラインに抽出、変換、ロードするための複雑なデータエンジニアリングワークフローに依存している。
しかしながら、これらのパイプラインの構築には時間を要するため、データインフラストラクチャやオーケストレーションフレームワークにはかなりの専門知識が必要になる。
大規模言語モデル(LLM)エージェントの最近の進歩は、これらのワークフローを自動化するための潜在的な道筋を提供するが、既存のアプローチでは、未指定のユーザ意図、信頼性の低いツール生成、実行可能出力の限られた保証に苦慮している。
我々は、自然言語仕様をプロダクション対応のKubeflow Pipelines (KFP)に変換するAIエージェントであるkRAIGを紹介する。
ユーザ意図の曖昧さを解決するために,パイプライン合成に先立って意図を明確に示すインタラクションフレームワークReQuesAct(ReQuesAct,Reason, Question, Act)を提案する。
このシステムは、多様なソースからエンドツーエンドのデータ移動を編成し、検索強化ツール合成プロセスを通じてタスク固有の変換コンポーネントを生成する。
データ品質と安全性を保証するため、kRAIGはLLMベースの検証ステージを導入し、実行前にパイプラインの整合性を検証する。
本フレームワークは,最先端のエージェントベースラインと比較して,抽出とロードの精度が3倍向上し,変換精度が25%向上する。
これらの改善により、明示的な意図の明確化と検証を備えた構造化されたエージェントワークフローが、自動データエンジニアリングパイプラインの信頼性と実行性を大幅に向上することが示された。
関連論文リスト
- Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。
本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:21:42Z) - Autonomous Data Processing using Meta-Agents [2.3732259124656907]
我々はメタエージェント(ADP-MA)を用いたtextbf Autonomous Data Processingを提案し,データ処理パイプラインを動的に構築し,実行し,反復的に洗練するフレームワークを提案する。
ADP-MAは、コンテキスト対応の最適化、適応的なワークロード分割、拡張性のためのプログレッシブサンプリングを強調している。
ADP-MAはパイプライン構築、実行監視、代表データ処理タスク間の適応的な改善を示すインタラクティブなデモを通じてデモを行う。
論文 参考訳(メタデータ) (2026-01-30T20:58:17Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Classifier-Augmented Generation for Structured Workflow Prediction [5.92079054629498]
本稿では,自然言語記述を実行可能なものに翻訳するシステムを提案する。
フローの構造と詳細な構成の両方を自動的に予測する。
これは、ステージ予測、エッジレイアウト、および自然駆動オーサリングのためのプロパティ生成にまたがって詳細な評価を行う最初のシステムである。
論文 参考訳(メタデータ) (2025-10-10T18:38:25Z) - ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - ACT: Bridging the Gap in Code Translation through Synthetic Data Generation & Adaptive Training [1.4709455282157278]
Auto-Train for Code Translation (ACT)は、オープンソースのLarge Language Models (LLM)を社内で微調整することで、コード翻訳機能を改善することを目的としている。
ACTの自動パイプラインはこれらのモデルの性能を大幅に向上させ、オープンソースアクセシビリティとクローズドソースソリューションのパフォーマンスのギャップを狭める。
我々の結果は、ACTがオープンソースモデルの有効性を一貫して強化し、企業や開発者が安全で信頼性の高い代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-07-22T11:35:35Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。