論文の概要: Causify DataFlow: A Framework For High-performance Machine Learning Stream Computing
- arxiv url: http://arxiv.org/abs/2512.23977v1
- Date: Tue, 30 Dec 2025 04:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.275372
- Title: Causify DataFlow: A Framework For High-performance Machine Learning Stream Computing
- Title(参考訳): Causify DataFlow: 高性能機械学習ストリームコンピューティングのためのフレームワーク
- Authors: Giacinto Paolo Saggese, Paul Smith,
- Abstract要約: 我々は、無制限の時系列データ上に機械学習システムを構築し、テストし、デプロイするための計算フレームワークであるDataFlowを紹介する。
従来のデータサイエンスは有限データセットを前提としており、バッチプロトタイプからストリーミングプロダクションシステムに移行する際には、かなりの再実装が必要である。
DataFlowは、ポイント・イン・タイムの理想性を持つ非循環グラフに基づいて、これらの問題を統一された実行モデルで解決する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DataFlow, a computational framework for building, testing, and deploying high-performance machine learning systems on unbounded time-series data. Traditional data science workflows assume finite datasets and require substantial reimplementation when moving from batch prototypes to streaming production systems. This gap introduces causality violations, batch boundary artifacts, and poor reproducibility of real-time failures. DataFlow resolves these issues through a unified execution model based on directed acyclic graphs (DAGs) with point-in-time idempotency: outputs at any time t depend only on a fixed-length context window preceding t. This guarantee ensures that models developed in batch mode execute identically in streaming production without code changes. The framework enforces strict causality by automatically tracking knowledge time across all transformations, eliminating future-peeking bugs. DataFlow supports flexible tiling across temporal and feature dimensions, allowing the same model to operate at different frequencies and memory profiles via configuration alone. It integrates natively with the Python data science stack and provides fit/predict semantics for online learning, caching and incremental computation, and automatic parallelization through DAG-based scheduling. We demonstrate its effectiveness across domains including financial trading, IoT, fraud detection, and real-time analytics.
- Abstract(参考訳): 我々は,非有界時系列データ上に高性能機械学習システムを構築し,テストし,デプロイするための計算フレームワークであるDataFlowを紹介する。
従来のデータサイエンスワークフローは有限データセットを前提としており、バッチプロトタイプからストリーミングプロダクションシステムに移行する際には、大幅な再実装が必要である。
このギャップは因果的違反、バッチ境界アーティファクト、リアルタイム障害の再現性に欠ける。
DataFlowは、ポイント・イン・タイムのイデペンシエンスを持つ有向非巡回グラフ(DAG)に基づいた統一された実行モデルによってこれらの問題を解決します。
これにより、バッチモードで開発されたモデルが、コードの変更なしに、ストリーミングプロダクションで同一に実行されることが保証される。
このフレームワークは、すべてのトランスフォーメーションにおける知識時間を自動的に追跡し、将来的なバグを排除することによって、厳格な因果関係を強制する。
DataFlowは時間的および機能的な側面をまたいだフレキシブルタイリングをサポートしており、同じモデルを設定だけで異なる周波数とメモリプロファイルで動作させることができる。
Pythonデータサイエンススタックとネイティブに統合され、オンライン学習、キャッシュ、インクリメンタルな計算、DAGベースのスケジューリングによる自動並列化のための適合/予測セマンティクスを提供する。
金融取引、IoT、不正検出、リアルタイム分析などの領域で有効性を示す。
関連論文リスト
- MAWIFlow Benchmark: Realistic Flow-Based Evaluation for Network Intrusion Detection [47.86433139298671]
本稿では,MAWILAB v1.1データセットから得られたフローベースベンチマークであるMAWIFlowを紹介する。
得られたデータセットは、2011年1月、2016年、2021年に太平洋横断のバックボーンのトラフィックから引き出された、時間的に異なるサンプルで構成されている。
決定木、ランダムフォレスト、XGBoost、ロジスティック回帰を含む伝統的な機械学習手法は、CNN-BiLSTMアーキテクチャに基づいたディープラーニングモデルと比較される。
論文 参考訳(メタデータ) (2025-06-20T14:51:35Z) - SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。
人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。
私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文 参考訳(メタデータ) (2025-06-10T17:23:33Z) - Filling the Missings: Spatiotemporal Data Imputation by Conditional Diffusion [7.021277706390712]
環境モニタリングから都市交通管理まで,現代的応用への課題が提示されている。
機械学習とディープラーニングに基づく現在のアプローチは、空間次元と時間次元の依存性を効果的にモデル化するために苦労している。
CoFILLは、拡散品質モデルの本質的な利点に基づいて、高品質な計算結果を生成する。
論文 参考訳(メタデータ) (2025-06-08T11:53:06Z) - SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。
トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文 参考訳(メタデータ) (2024-11-20T10:23:21Z) - Streaming Factor Trajectory Learning for Temporal Tensor Decomposition [33.18423605559094]
時相テンソル分解のためのストリーム係数軌道学習を提案する。
我々はガウス過程(GP)を用いて因子の軌道をモデル化し、その時間的進化を柔軟に推定する。
合成タスクと実世界のアプリケーションの両方において、SFTLの利点を示してきた。
論文 参考訳(メタデータ) (2023-10-25T21:58:52Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。