論文の概要: Blockchain-Enabled Accountability in Data Supply Chain: A Data Bill of Materials Approach
- arxiv url: http://arxiv.org/abs/2408.08536v1
- Date: Fri, 16 Aug 2024 05:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 16:39:36.899248
- Title: Blockchain-Enabled Accountability in Data Supply Chain: A Data Bill of Materials Approach
- Title(参考訳): データサプライチェーンにおけるブロックチェーン可能な説明責任: 材料アプローチのデータ請求書
- Authors: Yue Liu, Dawen Zhang, Boming Xia, Julia Anticev, Tunde Adebayo, Zhenchang Xing, Moses Machao,
- Abstract要約: データ請求書(Data Bill of Materials, DataBOM)は、特定のメタデータを格納することで、異なるデータセットと利害関係者間の依存関係関係をキャプチャする。
ブロックチェーンベースのDataBOMサービスを提供するためのプラットフォームアーキテクチャを実証し、利害関係者のためのインタラクションプロトコルを提示し、DataBOMメタデータの最小要件について議論する。
- 参考スコア(独自算出の注目度): 16.31469678670097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of advanced artificial intelligence, highlighted by large-scale generative models like GPT-4, ensuring the traceability, verifiability, and reproducibility of datasets throughout their lifecycle is paramount for research institutions and technology companies. These organisations increasingly rely on vast corpora to train and fine-tune advanced AI models, resulting in intricate data supply chains that demand effective data governance mechanisms. In addition, the challenge intensifies as diverse stakeholders may use assorted tools, often without adequate measures to ensure the accountability of data and the reliability of outcomes. In this study, we adapt the concept of ``Software Bill of Materials" into the field of data governance and management to address the above challenges, and introduce ``Data Bill of Materials" (DataBOM) to capture the dependency relationship between different datasets and stakeholders by storing specific metadata. We demonstrate a platform architecture for providing blockchain-based DataBOM services, present the interaction protocol for stakeholders, and discuss the minimal requirements for DataBOM metadata. The proposed solution is evaluated in terms of feasibility and performance via case study and quantitative analysis respectively.
- Abstract(参考訳): 高度な人工知能の時代において、GPT-4のような大規模な生成モデルによって強調され、彼らのライフサイクルを通してデータセットのトレーサビリティ、検証可能性、再現性を保証することは、研究機関や技術企業にとって最重要である。
これらの組織はますます、高度なAIモデルを訓練し、微調整するために巨大なコーパスに依存しており、結果として、効果的なデータガバナンスメカニズムを必要とする複雑なデータサプライチェーンが生まれる。
さらに、様々な利害関係者が、データの説明責任と結果の信頼性を確保するための適切な措置を使わずに、様々なツールを使用する可能性があるため、この課題は激化します。
本研究では,これらの課題に対処するため,データガバナンスと管理の分野に ‘Software Bill of Materials’ の概念を適用し,特定のメタデータを格納することで,異なるデータセットと利害関係者間の依存関係関係を捉えるために ‘Data Bill of Materials' (DataBOM) を導入する。
ブロックチェーンベースのDataBOMサービスを提供するためのプラットフォームアーキテクチャを実証し、利害関係者のためのインタラクションプロトコルを提示し、DataBOMメタデータの最小要件について議論する。
提案手法は, ケーススタディと定量的解析により, 実現可能性, 性能の両面から評価する。
関連論文リスト
- A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Towards Avoiding the Data Mess: Industry Insights from Data Mesh Implementations [1.5029560229270191]
Data Meshは、企業データ管理のための、社会技術的、分散化されたコンセプトである。
業界の専門家との15の半構造化インタビューを行います。
本研究は,業界の専門家による知見を総合し,データメッシュの採用を成功させるための予備的ガイドラインを研究者や専門家に提供する。
論文 参考訳(メタデータ) (2023-02-03T13:09:57Z) - Towards federated multivariate statistical process control (FedMSPC) [1.8047694351309207]
本稿では、フェデレーション主成分分析(PCA)とセキュアマルチパーティ計算に基づく、プライバシ保護、フェデレーション付き統計プロセス制御(FedMSPC)フレームワークを提案する。
実験により,提案手法の故障検出能力は,標準の単方向(複数方向)PCAと比較して優れていることが示された。
論文 参考訳(メタデータ) (2022-11-03T08:36:30Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。