論文の概要: A Data Source Dependency Analysis Framework for Large Scale Data Science
Projects
- arxiv url: http://arxiv.org/abs/2212.07951v1
- Date: Thu, 15 Dec 2022 16:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 18:18:02.652836
- Title: A Data Source Dependency Analysis Framework for Large Scale Data Science
Projects
- Title(参考訳): 大規模データサイエンスプロジェクトのためのデータソース依存分析フレームワーク
- Authors: Laurent Bou\'e and Pratap Kunireddy and Pavle Suboti\'c
- Abstract要約: データソース依存地獄(Data source dependency hell)は、データと、しばしば機械学習モデルの予期せぬ失敗に繋がるユニークなクイックが果たす中心的な役割を指す。
MLOpsエンジニアは、高速なペースのエンジニアリング環境で、モデルの依存性マップ全体を監視できる自動依存性マッピングフレームワークを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dependency hell is a well-known pain point in the development of large
software projects and machine learning (ML) code bases are not immune from it.
In fact, ML applications suffer from an additional form, namely, "data source
dependency hell". This term refers to the central role played by data and its
unique quirks that often lead to unexpected failures of ML models which cannot
be explained by code changes. In this paper, we present an automated dependency
mapping framework that allows MLOps engineers to monitor the whole dependency
map of their models in a fast paced engineering environment and thus mitigate
ahead of time the consequences of any data source changes (e.g., re-train
model, ignore data, set default data etc.). Our system is based on a unified
and generic approach, employing techniques from static analysis, from which
data sources can be identified reliably for any type of dependency on a wide
range of source languages and artefacts. The dependency mapping framework is
exposed as a REST web API where the only input is the path to the Git
repository hosting the code base. Currently used by MLOps engineers at
Microsoft, we expect such dependency map APIs to be adopted more widely by
MLOps engineers in the future.
- Abstract(参考訳): 依存性地獄(Dependency hell)は、大規模なソフトウェアプロジェクトや機械学習(ML)コードベースの開発においてよく知られた問題点である。
実際、MLアプリケーションは"データソース依存地獄"という追加の形式に悩まされている。
この用語は、コードの変更によって説明できないMLモデルの予期せぬ失敗につながることが多いデータとそのユニークなクォークが果たす中心的な役割を指す。
本稿では,mlops のエンジニアが高速なエンジニアリング環境でモデル全体の依存性マップを監視し,データソース変更の結果(再トレーニングモデル,データ無視,デフォルトデータの設定など)を事前に緩和する自動依存性マッピングフレームワークを提案する。
本システムは,静的解析の手法を取り入れた統一的で汎用的な手法に基づいており,様々なソース言語やアーティファクトへの依存に対して,データソースを確実に識別することができる。
依存性マッピングフレームワークはrest web apiとして公開されており、唯一のインプットはコードベースをホストするgitリポジトリへのパスである。
現在MicrosoftのMLOpsエンジニアが使用している依存関係マップAPIは、将来的にMLOpsエンジニアによって広く採用されることを期待しています。
関連論文リスト
- Interpretable Multi-Source Data Fusion Through Latent Variable Gaussian Process [8.207427766052044]
提案手法は、2つの数学的(表現パラボラ問題、2D Ackley関数)と2つの材料科学(FeCrAlおよびSmCoFe合金の設計)のケーススタディを用いて実証および解析を行った。
単一のソースとソースを意識しないMLモデルと比較して,提案するマルチソースデータ融合フレームワークは,スパースデータ問題,ソースに対する解釈可能性,異なるソース間の相関や関係を利用してモデリング能力を向上させることができる。
論文 参考訳(メタデータ) (2024-02-06T16:54:59Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Machine Learning-Enabled Software and System Architecture Frameworks [48.87872564630711]
データサイエンスと機械学習に関連する関心事、例えばデータサイエンティストやデータエンジニアの利害関係者は、まだ既存のアーキテクチャフレームワークには含まれていない。
10か国25以上の組織から61名の被験者を対象に調査を行った。
論文 参考訳(メタデータ) (2023-08-09T21:54:34Z) - A Preliminary Investigation of MLOps Practices in GitHub [10.190501703364234]
機械学習アプリケーションはMLOpsへの関心が高まっている。
GitHubから取得したML対応システムのセットで実装されているMLOpsプラクティスについて、まず最初に調査する。
論文 参考訳(メタデータ) (2022-09-23T07:29:56Z) - Demystifying Dependency Bugs in Deep Learning Stack [7.488059560714949]
本稿では、Deep Learningスタック全体にわたる依存性バグ(DB)の症状、根本原因、修正パターンを特徴付ける。
以上の結果から,依存性管理の実践的意義が明らかとなった。
論文 参考訳(メタデータ) (2022-07-21T07:56:03Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Exploring the potential of flow-based programming for machine learning
deployment in comparison with service-oriented architectures [8.677012233188968]
理由のひとつは、データ収集と分析に関するアクティビティのために設計されていないインフラストラクチャである、と私たちは論じています。
本稿では,データストリームを用いたフローベースのプログラミングを,ソフトウェアアプリケーション構築に広く使用されるサービス指向アーキテクチャの代替として検討する。
論文 参考訳(メタデータ) (2021-08-09T15:06:02Z) - The Prevalence of Code Smells in Machine Learning projects [9.722159563454436]
静的コード解析は、ソースコードの潜在的な欠陥、機会、共通のコーディング標準の違反を見つけるのに使うことができる。
74のオープンソースプロジェクトのデータセットを集め、依存関係をインストールしてPylintを実行しました。
その結果、検出されたすべてのコードの臭いのトップ20に到達した。
論文 参考訳(メタデータ) (2021-03-06T16:01:54Z) - Learning to Generalize Unseen Domains via Memory-based Multi-Source
Meta-Learning for Person Re-Identification [59.326456778057384]
本稿では,メモリベースのマルチソースメタラーニングフレームワークを提案する。
また,メタテスト機能を多様化するメタバッチ正規化層(MetaBN)を提案する。
実験により、M$3$Lは、目に見えない領域に対するモデルの一般化能力を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2020-12-01T11:38:16Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。