論文の概要: Architectural Design Decisions for Self-Serve Data Platforms in Data
Meshes
- arxiv url: http://arxiv.org/abs/2402.04681v1
- Date: Wed, 7 Feb 2024 09:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 16:03:49.376574
- Title: Architectural Design Decisions for Self-Serve Data Platforms in Data
Meshes
- Title(参考訳): データメッシュにおけるセルフサーブデータプラットフォームのためのアーキテクチャ設計決定
- Authors: Tom van Eijk, Indika Kumara, Dario Di Nucci, Damian Andrew Tamburri,
Willem-Jan van den Heuvel
- Abstract要約: データメッシュは、分析的エンタープライズデータから大規模に価値を管理し、生成するための、新たな分散型アプローチである。
データの所有権は、データに最も近いビジネスドメインに移行し、データの共有と管理を自律的な製品として促進し、フェデレートされた自動データガバナンスモデルを使用する。
データメッシュは、データプロダクトを効率的に構築、共有、管理するために、ドメインチームとガバナンスチームにサービスを提供するマネージドデータプラットフォームに依存しています。
- 参考スコア(独自算出の注目度): 3.627365672061558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data mesh is an emerging decentralized approach to managing and generating
value from analytical enterprise data at scale. It shifts the ownership of the
data to the business domains closest to the data, promotes sharing and managing
data as autonomous products, and uses a federated and automated data governance
model. The data mesh relies on a managed data platform that offers services to
domain and governance teams to build, share, and manage data products
efficiently. However, designing and implementing a self-serve data platform is
challenging, and the platform engineers and architects must understand and
choose the appropriate design options to ensure the platform will enhance the
experience of domain and governance teams. For these reasons, this paper
proposes a catalog of architectural design decisions and their corresponding
decision options by systematically reviewing 43 industrial gray literature
articles on self-serve data platforms in data mesh. Moreover, we used
semi-structured interviews with six data engineering experts with data mesh
experience to validate, refine, and extend the findings from the literature.
Such a catalog of design decisions and options drawn from the state of practice
shall aid practitioners in building data meshes while providing a baseline for
further research on data mesh architectures.
- Abstract(参考訳): data meshは、大規模な分析企業データから価値を管理し、生成するための、新たな分散アプローチだ。
データの所有権を、データに最も近いビジネスドメインに移行し、自律製品としてデータの共有と管理を促進し、フェデレーションと自動データガバナンスモデルを使用する。
データメッシュは、データプロダクトを効率的に構築、共有、管理するためのドメインおよびガバナンスチームにサービスを提供するマネージドデータプラットフォームに依存している。
しかし、セルフサービスデータプラットフォームの設計と実装は困難であり、プラットフォームエンジニアとアーキテクトは、プラットフォームがドメインおよびガバナンスチームのエクスペリエンスを向上させるために適切な設計オプションを理解し、選択する必要がある。
そこで本稿では,データメッシュにおける自己管理型データプラットフォームに関する43の産業グレー文学論文を体系的にレビューし,アーキテクチャ設計決定とそれに対応する決定オプションのカタログを提案する。
さらに,データメッシュ経験を持つ6人のデータエンジニアリング専門家と半構造化インタビューを行い,文献から得られた知見の検証,洗練,拡張を行った。
このような設計上の決定と選択肢のカタログは、データメッシュアーキテクチャに関するさらなる研究のためのベースラインを提供しながら、データメッシュを構築する実践者を支援する。
関連論文リスト
- Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Empowering Data Mesh with Federated Learning [5.087058648342379]
新しいパラダイムであるData Meshは、中央チームから各データドメインにデータオーナシップを分散することで、ドメインを第一級の関心事として扱う。
Paypal、Netflix、Zalandoといった数十万ドルの企業はすでに、この新しいアーキテクチャに基づいてデータ分析パイプラインを変革している。
我々はフェデレートラーニングをData Meshに組み込む先駆的なアプローチを導入します。
論文 参考訳(メタデータ) (2024-03-26T17:10:15Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Architecting Data-Intensive Applications : From Data Architecture Design
to Its Quality Assurance [0.0]
データアーキテクチャは、ビジネスニーズを満たすためのデータの記述、収集、保存、処理、分析において重要である。
各種の業界領域において,DATを5つ以上のケースで評価し,その例外的な適応性と有効性を示した。
論文 参考訳(メタデータ) (2024-01-22T14:58:54Z) - Data Management For Large Language Models: A Survey [66.59562797566163]
大規模言語モデル(LLM)の訓練におけるデータの役割
本調査は,LLMの事前学習および教師付き微調整段階におけるデータ管理の現状を概観する。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Data Architecture for Digital Object Space Management Service (DOSM)
using DAT [1.8945921149936187]
この研究は、データの動き、データフォーマット、データ位置、データ処理(バッチまたはリアルタイム)、データストレージ技術、およびデータ上の主要な操作を記述することに焦点を当てている。
データアーキテクチャは、ソースから目的地へのデータフローを記述する複雑なタスクである。
論文 参考訳(メタデータ) (2023-06-22T14:22:56Z) - DAT: Data Architecture Modeling Tool for Data-Driven Applications [1.6037279419318131]
データアーキテクチャ(DA)は、ビジネスニーズを満たすためのデータの記述、収集、保存、処理、分析に焦点を当てている。
DATは、データアーキテクト、データエンジニア、その他のステークホルダーが、システムを通してデータがどのように流れるかを記述することを可能にする、モデル駆動のエンジニアリングツールです。
論文 参考訳(メタデータ) (2023-06-21T11:24:59Z) - Towards Avoiding the Data Mess: Industry Insights from Data Mesh Implementations [1.5029560229270191]
Data Meshは、企業データ管理のための、社会技術的、分散化されたコンセプトである。
業界の専門家との15の半構造化インタビューを行います。
本研究は,業界の専門家による知見を総合し,データメッシュの採用を成功させるための予備的ガイドラインを研究者や専門家に提供する。
論文 参考訳(メタデータ) (2023-02-03T13:09:57Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。