論文の概要: DataOps-driven CI/CD for analytics repositories
- arxiv url: http://arxiv.org/abs/2511.12277v1
- Date: Sat, 15 Nov 2025 16:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.796779
- Title: DataOps-driven CI/CD for analytics repositories
- Title(参考訳): 分析レポジトリのためのデータOps駆動型CI/CD
- Authors: Dmytro Valiaiev,
- Abstract要約: この観点では、DataOpsに準拠したバリデーションフレームワークの質的な設計を提案している。
フレームワークはLint、Optimize、Parse、Observeの5つのステージで構成されている。
要求トレーサビリティマトリックス(RTM)は、各ハイレベル制御が具体的なパイプラインチェックによってどのように実施されるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of SQL for data processing has often occurred without the rigor of traditional software development, leading to siloed efforts, logic replication, and increased risk. This ad-hoc approach hampers data governance and makes validation nearly impossible. Organizations are adopting DataOps, a methodology combining Agile, Lean, and DevOps principles to address these challenges to treat analytics pipelines as production systems. However, a standardized framework for implementing DataOps is lacking. This perspective proposes a qualitative design for a DataOps-aligned validation framework. It introduces a DataOps Controls Scorecard, derived from a multivocal literature review, which distills key concepts into twelve testable controls. These controls are then mapped to a modular, extensible CI/CD pipeline framework designed to govern a single source of truth (SOT) SQL repository. The framework consists of five stages: Lint, Optimize, Parse, Validate, and Observe, each containing specific, automated checks. A Requirements Traceability Matrix (RTM) demonstrates how each high-level control is enforced by concrete pipeline checks, ensuring qualitative completeness. This approach provides a structured mechanism for enhancing data quality, governance, and collaboration, allowing teams to scale analytics development with transparency and control.
- Abstract(参考訳): データ処理のためのSQLの普及は、従来のソフトウェア開発の厳格さなしにしばしば起こり、サイロ化された努力、ロジックのレプリケーション、リスクの増加につながります。
このアドホックなアプローチはデータガバナンスを阻害し、バリデーションをほぼ不可能にします。
組織は、これらの課題に対処し、分析パイプラインを運用システムとして扱うために、アジャイル、リーン、DevOpsの原則を組み合わせた方法論であるDataOpsを採用しています。
しかし、DataOpsを実装するための標準化されたフレームワークは欠落している。
この観点では、DataOpsに準拠したバリデーションフレームワークの質的な設計を提案している。
DataOps Controls Scorecardは、キーコンセプトを12のテスト可能なコントロールに蒸留する、マルチボーカルな文献レビューから生まれたものだ。
これらのコントロールは、単一の真実のソース(SOT)SQLリポジトリを管理するように設計された、モジュール化された拡張可能なCI/CDパイプラインフレームワークにマップされる。
フレームワークはLint、Optimize、Parse、Validate、Observeの5つのステージで構成される。
要求トレーサビリティマトリックス(RTM)は、各ハイレベル制御が具体的なパイプラインチェックによってどのように強制され、質的な完全性を保証するかを示す。
このアプローチは、データ品質、ガバナンス、コラボレーションを強化するための構造化されたメカニズムを提供し、チームは透明性とコントロールで分析開発をスケールできる。
関連論文リスト
- FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Analyzing and Internalizing Complex Policy Documents for LLM Agents [53.14898416858099]
大規模言語モデル(LLM)ベースのエージェントシステムは、多様なビジネスルールをコードするコンテキスト内ポリシー文書に依存している。
これは、パフォーマンスを保ちながら、ポリシー文書をモデルプリエントに組み込む内部化手法の開発を動機付けます。
CC-Genは4つのレベルにまたがる制御可能な複雑度を持つエージェントベンチマークジェネレータである。
論文 参考訳(メタデータ) (2025-10-13T16:30:07Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - Query as Test: An Intelligent Driving Test and Data Storage Method for Integrated Cockpit-Vehicle-Road Scenarios [17.75264660582999]
既存のテストメソッドはデータスタックに依存し、すべてのエッジケースをカバーすることができず、柔軟性がない。
クエリ・アズ・テスト(QaT)は、厳格で規範化されたテストケースから、柔軟でオンデマンドな論理的なクエリへと焦点を移します。
拡張シナリオ表記(ESN)は、新しい宣言型データフレームワークである。
論文 参考訳(メタデータ) (2025-06-27T09:59:58Z) - TD-Suite: All Batteries Included Framework for Technical Debt Classification [5.669063174637433]
TD-Suiteはシームレスなエンドツーエンドパイプラインを提供し、初期データ取り込みからモデルトレーニングに至るまで、あらゆるものを管理する。
生成されたモデルが堅牢であることを保証するため、TD-Suiteは重要なトレーニング方法論を取り入れている。
このフレームワークは、計算集約的なモデルトレーニングプロセスに関連する二酸化炭素排出量の追跡と報告を統合する。
論文 参考訳(メタデータ) (2025-04-15T11:31:17Z) - Relational Action Bases: Formalization, Effective Safety Verification,
and Invariants (Extended Version) [67.99023219822564]
我々はリレーショナルアクションベース(RAB)の一般的な枠組みを紹介する。
RABは両方の制限を解除することで既存のモデルを一般化する。
データ対応ビジネスプロセスのベンチマークにおいて、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-08-12T17:03:50Z) - Soundness of Data-Aware Processes with Arithmetic Conditions [8.914271888521652]
データペトリネット(DPN)は、単純さと表現性のバランスをとる能力によって、人気が高まっている。
データと制御フローの相互作用は、そのようなモデルの正しさ、特に音の良さ、決定的かつ困難さの確認を可能にする。
算術データ条件に富んだDPNの音質を評価するための枠組みを提供する。
論文 参考訳(メタデータ) (2022-03-28T14:46:10Z) - CoCoMoT: Conformance Checking of Multi-Perspective Processes via SMT
(Extended Version) [62.96267257163426]
我々はCoCoMoT(Computing Conformance Modulo Theories)フレームワークを紹介する。
まず、純粋な制御フロー設定で研究したSATベースのエンコーディングを、データ認識ケースに持ち上げる方法を示す。
次に,プロパティ保存型クラスタリングの概念に基づく新しい前処理手法を提案する。
論文 参考訳(メタデータ) (2021-03-18T20:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。