論文の概要: Atlas: A Framework for ML Lifecycle Provenance & Transparency
- arxiv url: http://arxiv.org/abs/2502.19567v1
- Date: Wed, 26 Feb 2025 21:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:54:10.897777
- Title: Atlas: A Framework for ML Lifecycle Provenance & Transparency
- Title(参考訳): Atlas: MLライフサイクルのメリットと透明性のためのフレームワーク
- Authors: Marcin Spoczynski, Marcela S. Melara, Sebastian Szyller,
- Abstract要約: 我々は、完全に検証可能な機械学習パイプラインを可能にするフレームワークであるAtlasを提案する。
Atlasは、モデルのアーティファクト認証とエンドツーエンドの血統メタデータの検証可能なレコードを収集している。
プロトタイプ実装は、MLライフサイクルの透明性システムを構築するために、いくつかのオープンソースツールを統合している。
- 参考スコア(独自算出の注目度): 3.408834854754518
- License:
- Abstract: The rapid adoption of open source machine learning (ML) datasets and models exposes today's AI applications to critical risks like data poisoning and supply chain attacks across the ML lifecycle. With growing regulatory pressure to address these issues through greater transparency, ML model vendors face challenges balancing these requirements against confidentiality for data and intellectual property needs. We propose Atlas, a framework that enables fully attestable ML pipelines. Atlas leverages open specifications for data and software supply chain provenance to collect verifiable records of model artifact authenticity and end-to-end lineage metadata. Atlas combines trusted hardware and transparency logs to enhance metadata integrity, preserve data confidentiality, and limit unauthorized access during ML pipeline operations, from training through deployment. Our prototype implementation of Atlas integrates several open-source tools to build an ML lifecycle transparency system, and assess the practicality of Atlas through two case study ML pipelines.
- Abstract(参考訳): オープンソースの機械学習(ML)データセットとモデルが急速に採用され、今日のAIアプリケーションは、データ中毒やサプライチェーン攻撃といった重大なリスクにさらされている。
透明性の向上を通じてこれらの問題に対処する規制の圧力が高まる中、MLモデルベンダは、データや知的財産権のニーズに対する機密性に対して、これらの要件のバランスをとることの難しさに直面している。
我々は、完全に検証可能なMLパイプラインを可能にするフレームワークであるAtlasを提案する。
Atlasは、データとソフトウェアサプライチェーンの証明のためのオープン仕様を活用して、モデルのアーティファクト認証とエンドツーエンドの血統メタデータの検証可能なレコードを収集します。
Atlasでは、信頼性のあるハードウェアと透過性ログを組み合わせて、メタデータの整合性の向上、データの機密性の維持、MLパイプライン操作中のトレーニングからデプロイメントまでの不正アクセスを制限する。
Atlasのプロトタイプ実装では、いくつかのオープンソースツールを統合して、MLライフサイクルの透明性システムを構築し、Atlasの実践性を2つのケーススタディMLパイプラインを通じて評価しています。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。
LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - TDML -- A Trustworthy Distributed Machine Learning Framework [7.302091381583343]
大規模モデル(LM)の急速な進歩は、計算資源の需要を増大させた。
この需要は、サプライチェーンの遅延と大手テック企業による独占的な買収により、可用性の限界によって悪化している。
本稿では、リモートトレーナーのコーディネートとワークロードの検証にガイダンスを活用する、テキスト信頼に値する分散機械学習(TDML)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-10T03:22:28Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z) - SimbaML: Connecting Mechanistic Models and Machine Learning with
Augmented Data [0.0]
SimbaMLは、通常の微分方程式に基づくモデルからリアルな合成データセットを生成するオープンソースツールである。
SimbaMLは、合成データから実世界のデータへの変換学習を便利に調査することができる。
論文 参考訳(メタデータ) (2023-04-08T12:50:50Z) - Modeling Quality and Machine Learning Pipelines through Extended Feature
Models [0.0]
本稿では,機能モデルメタモデルを適切に拡張した品質MLパイプラインのための新しいエンジニアリング手法を提案する。
提案されたアプローチでは、MLパイプライン、その品質要件(パイプライン全体と単一フェーズ)、各パイプラインフェーズを実装するアルゴリズムの品質特性をモデル化することができる。
論文 参考訳(メタデータ) (2022-07-15T15:20:28Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Enabling Un-/Semi-Supervised Machine Learning for MDSE of the Real-World
CPS/IoT Applications [0.5156484100374059]
我々は、スマートサイバー物理システム(CPS)とIoT(Internet of Things)の現実的なユースケースシナリオに対して、ドメイン固有モデル駆動ソフトウェアエンジニアリング(MDSE)をサポートする新しいアプローチを提案する。
人工知能(AI)の本質において利用可能なデータの大部分はラベルが付けられていないと我々は主張する。したがって、教師なしおよび/または半教師なしのMLアプローチが実践的な選択である。
提案手法は,既存の最先端MDSEツールと完全に実装され,CPS/IoTドメインを提供する。
論文 参考訳(メタデータ) (2021-07-06T15:51:39Z) - Kafka-ML: connecting the data stream with ML/AI frameworks [0.15749416770494704]
機械学習(ML)と人工知能(AI)は、アルゴリズムを通じてトレーニング、改善、予測を行うデータソースに依存している。
K Kafka-MLは、データストリーム(Apache Kafka)を通じてML/AIパイプラインの管理を可能にするオープンソースのフレームワークである。
K Kafka-ML自体とそのデプロイされたコンポーネントは、コンテナ化テクノロジを通じて完全に管理されている。
論文 参考訳(メタデータ) (2020-06-07T10:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。