論文の概要: From Ad-Hoc Scripts to Orchestrated Pipelines: Architecting a Resilient ELT Framework for Developer Productivity Metrics
- arxiv url: http://arxiv.org/abs/2602.21568v1
- Date: Wed, 25 Feb 2026 04:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.706892
- Title: From Ad-Hoc Scripts to Orchestrated Pipelines: Architecting a Resilient ELT Framework for Developer Productivity Metrics
- Title(参考訳): アドホックスクリプトからオーケストレーションパイプラインへ - 開発者の生産性メトリクスのための回復力のあるETLフレームワークの構築
- Authors: Yuvraj Agrawal, Pallav Jain,
- Abstract要約: 本稿では,レガシスケジューリングからロバストなExtract-Load-Transformパイプラインへの移行経験について報告する。
メトリクスパイプラインをプロダクショングレードの分散システムとして扱うことは、持続可能なエンジニアリング分析の前提条件である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developer Productivity Dashboards are essential for visualizing DevOps performance metrics such as Deployment Frequency and Change Failure Rate (DORA). However, the utility of these dashboards is frequently undermined by data reliability issues. In early iterations of our platform, ad-hoc ingestion scripts (Cron jobs) led to "silent failures," where data gaps went undetected for days, eroding organizational trust. This paper reports on our experience migrating from legacy scheduling to a robust Extract-Load-Transform (ELT) pipeline using Directed Acyclic Graph (DAG) orchestration and Medallion Architecture. We detail the operational benefits of decoupling data extraction from transformation, the necessity of immutable raw history for metric redefinition, and the implementation of state-based dependency management. Our experience suggests that treating the metrics pipeline as a production-grade distributed system is a prerequisite for sustainable engineering analytics.
- Abstract(参考訳): 開発者生産性ダッシュボードは、デプロイメント頻度や変更失敗率(DORA)などのDevOpsパフォーマンスメトリクスを視覚化するために不可欠である。
しかしながら、これらのダッシュボードの有用性は、データ信頼性の問題によってしばしば損なわれます。
当社のプラットフォームの初期イテレーションでは、アドホックな取り込みスクリプト(Cronジョブ)が“サイレント障害”を引き起こしました。
本稿では,DAG(Directed Acyclic Graph)オーケストレーションとメダリオンアーキテクチャを用いた,レガシスケジューリングからロバストなExtract-Load-Transform (ELT)パイプラインへの移行経験について報告する。
本稿では、データ抽出を変換から切り離すことの運用上のメリット、メトリクスの再定義に不変な生履歴が必要であること、および状態ベースの依存性管理の実装について詳述する。
私たちの経験から、メトリクスパイプラインをプロダクショングレードの分散システムとして扱うことが、持続可能なエンジニアリング分析の前提条件であることが示唆されています。
関連論文リスト
- MEMTS: Internalizing Domain Knowledge via Parameterized Memory for Retrieval-Free Domain Adaptation of Time Series Foundation Models [51.506429027626005]
Memory for Time Series (MEMTS) は、時系列予測における検索不要領域適応のための軽量かつプラグアンドプレイ方式である。
MEMTSの鍵となるコンポーネントは知識永続化モジュール(KPM)であり、ドメイン固有の時間力学を内部化する。
このパラダイムシフトにより、MEMTSは定数時間推論とニアゼロレイテンシによる正確なドメイン適応を実現することができる。
論文 参考訳(メタデータ) (2026-02-14T14:00:06Z) - ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-02-06T19:55:26Z) - Autonomous Data Processing using Meta-Agents [2.3732259124656907]
我々はメタエージェント(ADP-MA)を用いたtextbf Autonomous Data Processingを提案し,データ処理パイプラインを動的に構築し,実行し,反復的に洗練するフレームワークを提案する。
ADP-MAは、コンテキスト対応の最適化、適応的なワークロード分割、拡張性のためのプログレッシブサンプリングを強調している。
ADP-MAはパイプライン構築、実行監視、代表データ処理タスク間の適応的な改善を示すインタラクティブなデモを通じてデモを行う。
論文 参考訳(メタデータ) (2026-01-30T20:58:17Z) - Causify DataFlow: A Framework For High-performance Machine Learning Stream Computing [0.0]
我々は、無制限の時系列データ上に機械学習システムを構築し、テストし、デプロイするための計算フレームワークであるDataFlowを紹介する。
従来のデータサイエンスは有限データセットを前提としており、バッチプロトタイプからストリーミングプロダクションシステムに移行する際には、かなりの再実装が必要である。
DataFlowは、ポイント・イン・タイムの理想性を持つ非循環グラフに基づいて、これらの問題を統一された実行モデルで解決する。
論文 参考訳(メタデータ) (2025-12-30T04:24:04Z) - A Probabilistic Framework for Temporal Distribution Generalization in Industry-Scale Recommender Systems [14.592975643628188]
時間分布シフトは、推奨システムの長期的な精度を損なう。
本稿では,産業規模のインクリメンタル学習パイプラインにシームレスに統合する確率的フレームワークを提案する。
本手法は時間的一般化に優れ,ユーザ当たりのGMVは2.33%上昇する。
論文 参考訳(メタデータ) (2025-11-26T04:02:23Z) - Operon: Incremental Construction of Ragged Data via Named Dimensions [1.6212518002538465]
既存のワークフローエンジンには、タグ付けされたデータ固有の形状と依存関係を追跡するネイティブサポートがない。
我々はRustベースのワークフローエンジンであるOperonを紹介します。
論文 参考訳(メタデータ) (2025-11-20T06:16:31Z) - Large Language Models as Realistic Microservice Trace Generators [48.730974361862366]
本稿では,大規模言語モデル (LLM) を用いて, 合成作業負荷トレースを生成する手法を提案する。
我々はTraceLLMが様々な条件下で多様なリアルなトレースを生成し、精度と妥当性の両方において既存のアプローチよりも優れていることを示す。
TraceLLMは、キートレース機能を予測したり、欠落したデータを埋め込むといった、下流のトレース関連タスクに適応する。
論文 参考訳(メタデータ) (2024-12-16T12:48:04Z) - Diagnostic Spatio-temporal Transformer with Faithful Encoding [54.02712048973161]
本稿では,データ生成プロセスが複合時間(ST)依存性を持つ場合の異常診断の課題について述べる。
我々は、ST依存を時系列分類の副産物として学習する、教師付き依存発見として問題を定式化する。
既存のST変圧器で使用される時間的位置符号化は、高周波数(短時間スケール)の周波数をキャプチャする重大な制限を有することを示す。
また、空間的および時間的方向の両方で容易に消費可能な診断情報を提供する新しいST依存性発見フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-26T05:31:23Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z) - Transformer Hawkes Process [79.16290557505211]
本稿では,長期的依存関係を捕捉する自己認識機構を利用したTransformer Hawkes Process (THP) モデルを提案する。
THPは、有意なマージンによる可能性と事象予測の精度の両方の観点から、既存のモデルより優れている。
本稿では、THPが関係情報を組み込む際に、複数の点過程を学習する際の予測性能の改善を実現する具体例を示す。
論文 参考訳(メタデータ) (2020-02-21T13:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。