論文の概要: FlowETL: An Autonomous Example-Driven Pipeline for Data Engineering
- arxiv url: http://arxiv.org/abs/2507.23118v1
- Date: Wed, 30 Jul 2025 21:46:22 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-08-01 13:49:01.47837
- Title: FlowETL: An Autonomous Example-Driven Pipeline for Data Engineering
- Title(参考訳): FlowETL: データエンジニアリングのための自律的な例駆動パイプライン
- Authors: Mattia Di Profio, Mingjun Zhong, Yaji Sripada, Marcel Jaspars,
- Abstract要約: FlowETLは、入力データセットの自動標準化と準備のために設計された、サンプルベースの自律パイプラインアーキテクチャである。
Planning Engineは、ペア化された入出力データセットを使用して変換計画を構築し、ワーカーがソースに適用する。
結果は、さまざまなドメイン、ファイル構造、ファイルサイズからなる14のデータセットにまたがる有望な一般化能力を示している。
- 参考スコア(独自算出の注目度): 1.3599496385950987
- License:
- Abstract: The Extract, Transform, Load (ETL) workflow is fundamental for populating and maintaining data warehouses and other data stores accessed by analysts for downstream tasks. A major shortcoming of modern ETL solutions is the extensive need for a human-in-the-loop, required to design and implement context-specific, and often non-generalisable transformations. While related work in the field of ETL automation shows promising progress, there is a lack of solutions capable of automatically designing and applying these transformations. We present FlowETL, a novel example-based autonomous ETL pipeline architecture designed to automatically standardise and prepare input datasets according to a concise, user-defined target dataset. FlowETL is an ecosystem of components which interact together to achieve the desired outcome. A Planning Engine uses a paired input-output datasets sample to construct a transformation plan, which is then applied by an ETL worker to the source dataset. Monitoring and logging provide observability throughout the entire pipeline. The results show promising generalisation capabilities across 14 datasets of various domains, file structures, and file sizes.
- Abstract(参考訳): Extract, Transform, Load (ETL)ワークフローは、ダウンストリームタスクのためにアナリストがアクセスするデータウェアハウスやその他のデータストアを収集、維持するための基本である。
現代のETLソリューションの最大の欠点は、コンテキスト固有の、しばしば一般化不可能な変換を設計、実装するために必要となる、ヒューマン・イン・ザ・ループの広範な必要性である。
ETL自動化の分野での関連する研究は、期待できる進歩を示しているが、これらの変換を自動設計し適用できるソリューションが不足している。
FlowETLは、入力データセットを簡潔でユーザ定義のターゲットデータセットに従って自動的に標準化し、準備するように設計された、新しい例ベースの自律ETLパイプラインアーキテクチャである。
FlowETLは、望ましい結果を得るために相互作用するコンポーネントのエコシステムである。
Planning Engineは、ペア化された入出力データセットを使用して変換計画を構築し、ETLワーカーがソースデータセットに適用する。
監視とロギングは、パイプライン全体を通して可観測性を提供します。
結果は、さまざまなドメイン、ファイル構造、ファイルサイズからなる14のデータセットにまたがる有望な一般化能力を示している。
関連論文リスト
- Data Agent: A Holistic Architecture for Orchestrating Data+AI Ecosystems [8.816332263275305]
従来のData+AIシステムは、システムパイプラインのオーケストレーションに人間の専門家に大きく依存しています。
既存のData+AIシステムは、セマンティック理解、推論、計画の能力に制限がある。
データエージェント(Data Agent) - データ+AIエコシステムのオーケストレーションを目的とした包括的なアーキテクチャ。
論文 参考訳(メタデータ) (2025-07-02T11:04:49Z) - Text embedding models can be great data engineers [0.0]
テキスト埋め込みによる自動データエンジニアリングパイプラインであるADEPTを提案する。
ADEPTは、さまざまなデータセットセットにおいて、最も優れた既存のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-20T18:12:19Z) - WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - Dataverse: Open-Source ETL (Extract, Transform, Load) Pipeline for Large Language Models [6.671352329067298]
大規模言語モデル(LLM)のためのETLパイプラインであるDataverseを提案する。
Dataverseにブロックベースのインターフェースを備えたカスタムプロセッサを簡単に追加することで、Dataverseを簡単かつ効率的に使用して独自のパイプラインを構築することができる。
本稿では,システムの性能と実装を解説した,簡潔で2分間のデモ映像を提供する。
論文 参考訳(メタデータ) (2024-03-28T11:57:08Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - FENXI: Deep-learning Traffic Analytics at the Edge [69.34903175081284]
本稿では,TPUを利用して複雑な解析を行うシステムであるFENXIを提案する。
FENXIは、さまざまな粒度で動作するオペレーションとトラフィック分析を分離する。
分析の結果,FENXIは限られた資源しか必要とせず,転送ラインレートのトラヒック処理を継続できることがわかった。
論文 参考訳(メタデータ) (2021-05-25T08:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。