Fugu-MT 論文翻訳(概要): FlowETL: An Autonomous Example-Driven Pipeline for Data Engineering

論文の概要: FlowETL: An Autonomous Example-Driven Pipeline for Data Engineering

arxiv url: http://arxiv.org/abs/2507.23118v1
Date: Wed, 30 Jul 2025 21:46:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-08 14:14:46.50351
Title: FlowETL: An Autonomous Example-Driven Pipeline for Data Engineering
Title（参考訳）: FlowETL: データエンジニアリングのための自律的な例駆動パイプライン
Authors: Mattia Di Profio, Mingjun Zhong, Yaji Sripada, Marcel Jaspars,
Abstract要約: FlowETLは、入力データセットの自動標準化と準備のために設計された、サンプルベースの自律パイプラインアーキテクチャである。 Planning Engineは、ペア化された入出力データセットを使用して変換計画を構築し、ワーカーがソースに適用する。結果は、さまざまなドメイン、ファイル構造、ファイルサイズからなる14のデータセットにまたがる有望な一般化能力を示している。
参考スコア（独自算出の注目度）: 1.3599496385950987
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The Extract, Transform, Load (ETL) workflow is fundamental for populating and maintaining data warehouses and other data stores accessed by analysts for downstream tasks. A major shortcoming of modern ETL solutions is the extensive need for a human-in-the-loop, required to design and implement context-specific, and often non-generalisable transformations. While related work in the field of ETL automation shows promising progress, there is a lack of solutions capable of automatically designing and applying these transformations. We present FlowETL, a novel example-based autonomous ETL pipeline architecture designed to automatically standardise and prepare input datasets according to a concise, user-defined target dataset. FlowETL is an ecosystem of components which interact together to achieve the desired outcome. A Planning Engine uses a paired input-output datasets sample to construct a transformation plan, which is then applied by an ETL worker to the source dataset. Monitoring and logging provide observability throughout the entire pipeline. The results show promising generalisation capabilities across 14 datasets of various domains, file structures, and file sizes.
Abstract（参考訳）: Extract, Transform, Load (ETL)ワークフローは、ダウンストリームタスクのためにアナリストがアクセスするデータウェアハウスやその他のデータストアを収集、維持するための基本である。現代のETLソリューションの最大の欠点は、コンテキスト固有の、しばしば一般化不可能な変換を設計、実装するために必要となる、ヒューマン・イン・ザ・ループの広範な必要性である。 ETL自動化の分野での関連する研究は、期待できる進歩を示しているが、これらの変換を自動設計し適用できるソリューションが不足している。 FlowETLは、入力データセットを簡潔でユーザ定義のターゲットデータセットに従って自動的に標準化し、準備するように設計された、新しい例ベースの自律ETLパイプラインアーキテクチャである。 FlowETLは、望ましい結果を得るために相互作用するコンポーネントのエコシステムである。 Planning Engineは、ペア化された入出力データセットを使用して変換計画を構築し、ETLワーカーがソースデータセットに適用する。監視とロギングは、パイプライン全体を通して可観測性を提供します。結果は、さまざまなドメイン、ファイル構造、ファイルサイズからなる14のデータセットにまたがる有望な一般化能力を示している。

関連論文リスト

SemPipes -- Optimizable Semantic Data Operators for Tabular Machine Learning Pipelines [12.816711873869984]
本稿では,セマンティックデータ演算子をMLパイプラインに統合する新しい宣言型プログラミングモデルであるSemPipesを紹介する。 SemPipesはデータ特性、演算子命令、パイプラインコンテキストに基づいて、カスタム演算子実装を合成する。セマンティック演算子は、専門家が設計したパイプラインとエージェント生成パイプラインの両方において、エンドツーエンドの予測性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2026-02-04T23:36:29Z)
Autonomous Data Processing using Meta-Agents [2.3732259124656907]
我々はメタエージェント(ADP-MA)を用いたtextbf Autonomous Data Processingを提案し,データ処理パイプラインを動的に構築し,実行し,反復的に洗練するフレームワークを提案する。 ADP-MAは、コンテキスト対応の最適化、適応的なワークロード分割、拡張性のためのプログレッシブサンプリングを強調している。 ADP-MAはパイプライン構築、実行監視、代表データ処理タスク間の適応的な改善を示すインタラクティブなデモを通じてデモを行う。
論文参考訳（メタデータ） (2026-01-30T20:58:17Z)
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI [42.191938707504406]
DataFlowは、統一的でLLM駆動のデータ準備フレームワークである。システムレベルの抽象化により、モジュラー、再利用可能な、構成可能なデータ変換が可能になる。 DataFlowは、ダウンストリームのLarge Language Modelsのパフォーマンスを継続的に改善します。
論文参考訳（メタデータ） (2025-12-18T15:46:15Z)
LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。 LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文参考訳（メタデータ） (2025-09-28T17:31:38Z)
Data Agent: A Holistic Architecture for Orchestrating Data+AI Ecosystems [8.816332263275305]
従来のData+AIシステムは、システムパイプラインのオーケストレーションに人間の専門家に大きく依存しています。既存のData+AIシステムは、セマンティック理解、推論、計画の能力に制限がある。データエージェント(Data Agent) - データ+AIエコシステムのオーケストレーションを目的とした包括的なアーキテクチャ。
論文参考訳（メタデータ） (2025-07-02T11:04:49Z)
Text embedding models can be great data engineers [0.0]
テキスト埋め込みによる自動データエンジニアリングパイプラインであるADEPTを提案する。 ADEPTは、さまざまなデータセットセットにおいて、最も優れた既存のベンチマークよりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-20T18:12:19Z)
Automated Planning for Optimal Data Pipeline Instantiation [10.501636306956385]
我々は、最適なデータパイプライン配置の問題を、アクションコストによる計画としてモデル化する。本稿では,全実行時間を最小化する戦略を提案する。実験結果から, 戦略がベースライン展開より優れていることが示唆された。
論文参考訳（メタデータ） (2025-03-16T19:43:12Z)
WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文参考訳（メタデータ） (2024-11-08T09:58:02Z)
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文参考訳（メタデータ） (2024-10-03T20:01:09Z)
Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文参考訳（メタデータ） (2024-07-10T11:35:02Z)
Dataverse: Open-Source ETL (Extract, Transform, Load) Pipeline for Large Language Models [6.671352329067298]
大規模言語モデル(LLM)のためのETLパイプラインであるDataverseを提案する。 Dataverseにブロックベースのインターフェースを備えたカスタムプロセッサを簡単に追加することで、Dataverseを簡単かつ効率的に使用して独自のパイプラインを構築することができる。本稿では,システムの性能と実装を解説した,簡潔で2分間のデモ映像を提供する。
論文参考訳（メタデータ） (2024-03-28T11:57:08Z)
Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2023-06-12T17:56:01Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
FENXI: Deep-learning Traffic Analytics at the Edge [69.34903175081284]
本稿では,TPUを利用して複雑な解析を行うシステムであるFENXIを提案する。 FENXIは、さまざまな粒度で動作するオペレーションとトラフィック分析を分離する。分析の結果,FENXIは限られた資源しか必要とせず,転送ラインレートのトラヒック処理を継続できることがわかった。
論文参考訳（メタデータ） (2021-05-25T08:02:44Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。