論文の概要: Mathematical Foundations of Modeling ETL Process Chains
- arxiv url: http://arxiv.org/abs/2603.29877v1
- Date: Mon, 09 Feb 2026 09:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.164727
- Title: Mathematical Foundations of Modeling ETL Process Chains
- Title(参考訳): ETLプロセスチェーンモデリングの数学的基礎
- Authors: Levin Maier, Lucas Schulze, Robert Lilow, Lukas Hahn, Nikola Krasowski, Arnulf Barth, Sebastian Gaebel, Ferdi Güran, Oliver Hanau, Giovanni Wagner, Falk Borgmann, Oleg Arenz, Jan Peters,
- Abstract要約: 抽出-変換-ロードプロセスは、現代のデータ処理基盤の中核的なコンポーネントである。
我々は時間集約スループットのレベルで正確であるプロセスチェーンの数学的モデルを開発する。
スレッド数、平均スループット、平均処理時間をリンクするフローバランスを仮定する。
- 参考スコア(独自算出の注目度): 10.03291311568095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extract-Transform-Load (ETL) processes are core components of modern data processing infrastructures. The throughput of processed data records can be adjusted by changing the amount of allocated resources, i.e.~the number of parallel processing threads for each of the three ETL phases, but also depends on stochastic variations in the per-record processing times. In chains of multiple consecutive ETL processes, the relation between allocated resources and overall throughput is further complicated, for example by the occurrence of bottlenecks affecting all subsequent ETL processes. We develop a mathematical model of ETL process chains that is accurate at the level of time-aggregated throughput and suitable for efficient simulation. The process chain is represented as a controlled discrete-time Markov process on a directed acyclic graph whose edges are individual ETL processes. We model the mean throughput as a bounded, monotone function of the number of parallel threads, to capture the diminishing benefit of allocating more threads. We furthermore introduce a Flow Balance postulate linking number of threads, mean throughput, and mean processing time. The stochastic processing times are then modeled by non-negative heavy-tailed distributions around the mean processing time. This framework provides a principled simulator for ETL networks and a foundation for learning- and control-based resource allocation.
- Abstract(参考訳): Extract-Transform-Load(ETL)プロセスは、現代のデータ処理基盤の中核的なコンポーネントである。
処理されたデータレコードのスループットは、割り当てられたリソースの量、すなわち3つのETLフェーズ毎の並列処理スレッドの数を変更することで調整できるが、記録毎の処理時間の確率的変動にも依存する。
複数のETLプロセスの連鎖では、リソース割り当てと全体的なスループットの関係はさらに複雑である。
本研究では,ETLプロセスチェーンの時間集約スループットのレベルで精度が高く,効率的なシミュレーションに適した数学的モデルを構築した。
プロセスチェーンは、エッジが個々のETLプロセスである有向非環状グラフ上の制御された離散時間マルコフプロセスとして表現される。
我々は、平均スループットを並列スレッド数の有界単調関数としてモデル化し、より多くのスレッドを割り当てる利点の減少を捉える。
さらに、スレッド数、平均スループット、平均処理時間をリンクするFlow Balanceの仮定を導入する。
確率処理時間は、平均処理時間付近の非負の重み付き分布によってモデル化される。
このフレームワークは、ETLネットワークの原理化されたシミュレーターと、学習と制御に基づくリソース割り当ての基礎を提供する。
関連論文リスト
- Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文 参考訳(メタデータ) (2026-03-23T17:01:42Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Edit-Based Flow Matching for Temporal Point Processes [51.33476564706644]
時間的ポイントプロセス(TPP)は、イベントシーケンスを連続的にモデル化するための基本的なツールである。
最近の非自己回帰拡散型モデルでは、ノイズとデータとの連立補間によってこれらの問題を緩和している。
本稿では,TPPの編集操作を挿入,削除,置換することで,ノイズをデータに転送する編集フロープロセスを提案する。
論文 参考訳(メタデータ) (2025-10-07T15:44:12Z) - The Streaming Batch Model for Efficient and Fault-Tolerant Heterogeneous Execution [28.768566833298365]
異種バッチ推論パイプラインのスループットを2.5~12$times$で向上するストリーミングバッチシステムであるRay Dataを紹介します。
Ray Dataは、シングルノードMLデータローダと比較して、安定拡散のようなマルチモーダルモデルのトレーニングスループットを31%改善する。
論文 参考訳(メタデータ) (2025-01-16T19:54:01Z) - Latent Iterative Refinement for Modular Source Separation [44.78689915209527]
従来のソース分離アプローチは、すべてのデータを一度に利用できるように、ディープニューラルネットワークモデルをエンドツーエンドにトレーニングする。
我々は、トレーニングと推論の段階において、リソース効率を著しく向上させることができると論じる。
論文 参考訳(メタデータ) (2022-11-22T00:02:57Z) - CoCoMoT: Conformance Checking of Multi-Perspective Processes via SMT
(Extended Version) [62.96267257163426]
我々はCoCoMoT(Computing Conformance Modulo Theories)フレームワークを紹介する。
まず、純粋な制御フロー設定で研究したSATベースのエンコーディングを、データ認識ケースに持ち上げる方法を示す。
次に,プロパティ保存型クラスタリングの概念に基づく新しい前処理手法を提案する。
論文 参考訳(メタデータ) (2021-03-18T20:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。