論文の概要: Machine Learning Systems are Bloated and Vulnerable
- arxiv url: http://arxiv.org/abs/2212.09437v3
- Date: Thu, 25 Jan 2024 14:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 18:49:42.755001
- Title: Machine Learning Systems are Bloated and Vulnerable
- Title(参考訳): 機械学習システムは肥大化し、脆弱です
- Authors: Huaifeng Zhang, Fahmi Abdulqadir Ahmed, Dyako Fatih, Akayou Kitessa,
Mohannad Alhanahnah, Philipp Leitner, Ahmed Ali-Eldin
- Abstract要約: ソフトウェアシステムの肥大を解析するフレームワークであるMMLBを開発した。
MMLBはコンテナレベルとパッケージレベルの両方の肥大度を測定します。
肥大化が機械学習コンテナのサイズの最大80%を占めることを示している。
- 参考スコア(独自算出の注目度): 2.7023370929727277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's software is bloated with both code and features that are not used by
most users. This bloat is prevalent across the entire software stack, from
operating systems and applications to containers. Containers are lightweight
virtualization technologies used to package code and dependencies, providing
portable, reproducible and isolated environments. For their ease of use, data
scientists often utilize machine learning containers to simplify their
workflow. However, this convenience comes at a cost: containers are often
bloated with unnecessary code and dependencies, resulting in very large sizes.
In this paper, we analyze and quantify bloat in machine learning containers. We
develop MMLB, a framework for analyzing bloat in software systems, focusing on
machine learning containers. MMLB measures the amount of bloat at both the
container and package levels, quantifying the sources of bloat. In addition,
MMLB integrates with vulnerability analysis tools and performs package
dependency analysis to evaluate the impact of bloat on container
vulnerabilities. Through experimentation with 15 machine learning containers
from TensorFlow, PyTorch, and Nvidia, we show that bloat accounts for up to 80%
of machine learning container sizes, increasing container provisioning times by
up to 370% and exacerbating vulnerabilities by up to 99%.
- Abstract(参考訳): 今日のソフトウェアは、ほとんどのユーザが使用していないコードと機能の両方で肥大化している。
この肥大化は、オペレーティングシステムやアプリケーションからコンテナに至るまで、ソフトウェアスタック全体に広まります。
コンテナは、コードと依存関係のパッケージングに使用される軽量な仮想化技術であり、ポータブルで再現性があり、分離された環境を提供する。
使いやすさのため、データサイエンティストはワークフローを単純化するために機械学習コンテナを使用することが多い。
コンテナはしばしば不要なコードと依存関係で肥大化し、結果として非常に大きなサイズになる。
本稿では,機械学習コンテナの肥大を解析し,定量化する。
ソフトウェアシステムの肥大を解析するフレームワークであるMMLBを開発し,機械学習コンテナに着目した。
MMLBはコンテナレベルとパッケージレベルの両方で肥大量を計測し、肥大の原因を定量化する。
さらに、mmlbは脆弱性分析ツールと統合し、コンテナの脆弱性に対する肥大の影響を評価するためにパッケージ依存性分析を行う。
TensorFlow、PyTorch、Nvidiaの15の機械学習コンテナを実験した結果、肥大化が機械学習コンテナのサイズの最大80%を占め、コンテナのプロビジョニング時間を最大370%増加し、脆弱性を最大99%悪化させることがわかった。
関連論文リスト
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - An empirical study of bloated dependencies in CommonJS packages [6.115666382910127]
サーバサイドアプリケーションで完全に使用されていない肥大化した依存関係を調査するために、実証的研究を行う。
本稿では,ファイルアクセスを監視し,実行中にどの依存関係がアクセスされないかを決定するトレースベースの動的解析手法を提案する。
以上の結果から,パッケージマネージャにおける依存性のデブロ化に対するネイティブサポートは,依存関係維持の負担を大幅に軽減する可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-28T08:04:01Z) - LUCID: A Framework for Reducing False Positives and Inconsistencies Among Container Scanning Tools [0.0]
本稿では,複数のスキャンツールによって提供される偽陽性や不整合を低減できるLUCIDというフレームワークを提案する。
その結果,我々のフレームワークは不整合を70%削減できることがわかった。
また、異なる重大度レベルを84%の精度で分類し、予測できる動的分類コンポーネントを作成します。
論文 参考訳(メタデータ) (2024-05-11T16:58:28Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - Jup2Kub: algorithms and a system to translate a Jupyter Notebook
pipeline to a fault tolerant distributed Kubernetes deployment [0.9790236766474201]
科学は計算、データ操作、時には科学的データ分析のための可視化ステップを促進する。
Jupyterノートブックは、より大きなデータセットでスケールするのに苦労し、耐障害性がなく、基盤となるツールやパッケージの安定性に大きく依存している。
Jup2KupはJupyterノートブックから分散された高性能環境に変換し、フォールトトレランスを向上させる。
論文 参考訳(メタデータ) (2023-11-21T02:54:06Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - BLAFS: A Bloat Aware File System [2.3476033905954687]
コンテナ用のBLoat-Aware-fileシステムであるBLAFSを紹介する。
BLAFSは、クラウドおよびエッジシステムのデブロ安全性を保証する。
論文 参考訳(メタデータ) (2023-05-08T11:41:30Z) - Opacus: User-Friendly Differential Privacy Library in PyTorch [54.8720687562153]
私たちは、差分プライバシーでディープラーニングモデルをトレーニングするための、オープンソースのPyTorchライブラリであるOpacusを紹介します。
シンプルでユーザフレンドリなAPIを提供しており、コードに最大2行を追加することで、マシンラーニングの実践者がトレーニングパイプラインをプライベートにすることができる。
論文 参考訳(メタデータ) (2021-09-25T07:10:54Z) - TensorFlow Lite Micro: Embedded Machine Learning on TinyML Systems [5.188829601887422]
組み込みデバイス上でのディープラーニング推論は、小さな組み込みデバイスが一様であることから、無数のアプリケーションで溢れている分野である。
組み込みデバイス上でのディープラーニング推論は、小さな組み込みデバイスが一様であることから、無数のアプリケーションで溢れている分野である。
組み込みシステム上でディープラーニングモデルを実行するための,オープンソースのML推論フレームワークであるLite Microを紹介した。
論文 参考訳(メタデータ) (2020-10-17T00:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。