論文の概要: Towards Avoiding the Data Mess: Industry Insights from Data Mesh Implementations
- arxiv url: http://arxiv.org/abs/2302.01713v4
- Date: Thu, 6 Jun 2024 16:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 01:19:21.635278
- Title: Towards Avoiding the Data Mess: Industry Insights from Data Mesh Implementations
- Title(参考訳): データメトリクスの回避に向けて - データメッシュ実装の産業的展望
- Authors: Jan Bode, Niklas Kühl, Dominik Kreuzberger, Sebastian Hirschl, Carsten Holtmann,
- Abstract要約: Data Meshは、企業データ管理のための、社会技術的、分散化されたコンセプトである。
業界の専門家との15の半構造化インタビューを行います。
本研究は,業界の専門家による知見を総合し,データメッシュの採用を成功させるための予備的ガイドラインを研究者や専門家に提供する。
- 参考スコア(独自算出の注目度): 1.5029560229270191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the increasing importance of data and artificial intelligence, organizations strive to become more data-driven. However, current data architectures are not necessarily designed to keep up with the scale and scope of data and analytics use cases. In fact, existing architectures often fail to deliver the promised value associated with them. Data mesh is a socio-technical, decentralized, distributed concept for enterprise data management. As the concept of data mesh is still novel, it lacks empirical insights from the field. Specifically, an understanding of the motivational factors for introducing data mesh, the associated challenges, implementation strategies, its business impact, and potential archetypes is missing. To address this gap, we conduct 15 semi-structured interviews with industry experts. Our results show, among other insights, that organizations have difficulties with the transition toward federated governance associated with the data mesh concept, the shift of responsibility for the development, provision, and maintenance of data products, and the comprehension of the overall concept. In our work, we derive multiple implementation strategies and suggest organizations introduce a cross-domain steering unit, observe the data product usage, create quick wins in the early phases, and favor small dedicated teams that prioritize data products. While we acknowledge that organizations need to apply implementation strategies according to their individual needs, we also deduct two archetypes that provide suggestions in more detail. Our findings synthesize insights from industry experts and provide researchers and professionals with preliminary guidelines for the successful adoption of data mesh.
- Abstract(参考訳): データと人工知能の重要性が高まり、組織はデータ駆動型になることを目指している。
しかし、現在のデータアーキテクチャは必ずしも、データや分析のユースケースの規模や範囲に合わせて設計されているわけではない。
実際、既存のアーキテクチャは、しばしばそれらに関連する約束された価値を提供するのに失敗します。
Data Meshは、企業データ管理のための、社会技術的、分散化されたコンセプトである。
データメッシュの概念はまだ新しいので、現場からの経験的な洞察が欠けている。
具体的には、データメッシュの導入に伴うモチベーション要因、関連する課題、実装戦略、ビジネスへの影響、潜在的なアーキタイプが欠落している。
このギャップに対処するため、業界の専門家との15の半構造化インタビューを実施します。
我々の結果は、組織が、データメッシュの概念に関連するフェデレートガバナンスへの移行、データ製品の開発、プロビジョニング、保守に対する責任のシフト、全体的な概念の理解に苦慮していることを示している。
当社の作業では、複数の実装戦略を導き、クロスドメインなステアリングユニットを導入し、データ製品の使用を観察し、初期段階で素早く成果を上げ、データプロダクトを優先する小さな専用チームを好むことを推奨しています。
組織は個々のニーズに応じて実装戦略を適用する必要があることを認めていますが、より詳細な提案を提供する2つのアーキタイプを減じています。
本研究は,業界の専門家による知見を総合し,データメッシュの採用を成功させるための予備的ガイドラインを研究者や専門家に提供する。
関連論文リスト
- Blockchain-Enabled Accountability in Data Supply Chain: A Data Bill of Materials Approach [16.31469678670097]
データ請求書(Data Bill of Materials, DataBOM)は、特定のメタデータを格納することで、異なるデータセットと利害関係者間の依存関係関係をキャプチャする。
ブロックチェーンベースのDataBOMサービスを提供するためのプラットフォームアーキテクチャを実証し、利害関係者のためのインタラクションプロトコルを提示し、DataBOMメタデータの最小要件について議論する。
論文 参考訳(メタデータ) (2024-08-16T05:34:50Z) - Empowering Data Mesh with Federated Learning [5.087058648342379]
新しいパラダイムであるData Meshは、中央チームから各データドメインにデータオーナシップを分散することで、ドメインを第一級の関心事として扱う。
Paypal、Netflix、Zalandoといった数十万ドルの企業はすでに、この新しいアーキテクチャに基づいてデータ分析パイプラインを変革している。
我々はフェデレートラーニングをData Meshに組み込む先駆的なアプローチを導入します。
論文 参考訳(メタデータ) (2024-03-26T17:10:15Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Enabling Inter-organizational Analytics in Business Networks Through
Meta Machine Learning [0.0]
センシティブな情報を開示すると同時に、交換が必要なデータの量の多さが、効果的なシステムワイドソリューションの創出の鍵となるインヒビターである。
本稿では,これらの障害に対処し,ビジネスネットワーク内の包括的分析を可能にするメタ機械学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-28T09:06:28Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - INTERN: A New Learning Paradigm Towards General Vision [117.3343347061931]
我々はInterNという新しい学習パラダイムを開発した。
複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。
ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
論文 参考訳(メタデータ) (2021-11-16T18:42:50Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets [0.0]
分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。
データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。
このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
論文 参考訳(メタデータ) (2020-11-12T16:06:01Z) - Towards Accountability for Machine Learning Datasets: Practices from
Software Engineering and Infrastructure [9.825840279544465]
機械学習を強化するデータセットは、しばしば使われ、共有され、再使用される。
本稿では、意思決定と説明責任をサポートするデータセット開発透明性のための厳格なフレームワークを紹介する。
論文 参考訳(メタデータ) (2020-10-23T01:57:42Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。