論文の概要: ContainerStress: Autonomous Cloud-Node Scoping Framework for Big-Data ML
Use Cases
- arxiv url: http://arxiv.org/abs/2003.08011v1
- Date: Wed, 18 Mar 2020 01:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 09:39:15.546007
- Title: ContainerStress: Autonomous Cloud-Node Scoping Framework for Big-Data ML
Use Cases
- Title(参考訳): ContainerStress:ビッグデータMLユースケースのためのクラウドノード自動スコープフレームワーク
- Authors: Guang Chao Wang, Kenny Gross, and Akshay Subramaniam
- Abstract要約: OracleLabsは、ネストループのMonte Carloシミュレーションを使用して、任意の規模の顧客MLユースケースを自律的にスケールする自動化フレームワークを開発した。
OracleLabsとNVIDIAの著者は、任意のML予測アルゴリズムの計算コストとGPUアクセラレーションを分析するMLベンチマーク研究に協力している。
- 参考スコア(独自算出の注目度): 0.2752817022620644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying big-data Machine Learning (ML) services in a cloud environment
presents a challenge to the cloud vendor with respect to the cloud container
configuration sizing for any given customer use case. OracleLabs has developed
an automated framework that uses nested-loop Monte Carlo simulation to
autonomously scale any size customer ML use cases across the range of cloud
CPU-GPU "Shapes" (configurations of CPUs and/or GPUs in Cloud containers
available to end customers). Moreover, the OracleLabs and NVIDIA authors have
collaborated on a ML benchmark study which analyzes the compute cost and GPU
acceleration of any ML prognostic algorithm and assesses the reduction of
compute cost in a cloud container comprising conventional CPUs and NVIDIA GPUs.
- Abstract(参考訳): クラウド環境にビッグデータ機械学習(ML)サービスをデプロイすることは、クラウドベンダにとって、任意の顧客ユースケースのサイズを拡大するクラウドコンテナの構成に関する課題となる。
OracleLabsは、ネストループのMonte Carloシミュレーションを使用して、クラウドCPU-GPU"Shapes"(エンドユーザが利用可能なクラウドコンテナ内のCPUやGPUの設定)の範囲で、任意のサイズの顧客MLユースケースを自律的にスケールする自動フレームワークを開発した。
さらに、OracleLabsとNVIDIAの著者は、MLの予測アルゴリズムの計算コストとGPUアクセラレーションを分析し、従来のCPUとNVIDIA GPUで構成されるクラウドコンテナの計算コストの削減を評価するMLベンチマーク研究に協力している。
関連論文リスト
- CloudHeatMap: Heatmap-Based Monitoring for Large-Scale Cloud Systems [1.1199585259018456]
本稿では、LCSの状態をほぼリアルタイムにモニタリングする、新しいヒートマップベースの可視化ツールであるCloudHeatMapを提案する。
コールボリューム、応答時間、HTTP応答コードなどの重要なメトリクスを直感的に視覚化し、オペレータがパフォーマンス上の問題を素早く特定できるようにする。
論文 参考訳(メタデータ) (2024-10-28T14:57:10Z) - PVContext: Hybrid Context Model for Point Cloud Compression [61.24130634750288]
我々は,効率的なオクツリーベースのポイントクラウド圧縮のためのハイブリッドコンテキストモデルPVContextを提案する。
PVContextは、ボクセルを用いて局所幾何学情報を正確に表現するVoxel Contextと、ポイントクラウドからグローバルな形状情報を効率的に保存するPoint Contextの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-09-19T12:47:35Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - CWD: A Machine Learning based Approach to Detect Unknown Cloud Workloads [3.523208537466129]
我々は、クラウド環境で実行されるワークロードを特徴付け、プロファイルし、予測する機械学習ベースの技術を開発した。
また,モデルの性能をスタンドアローンで解析する手法も開発している。
論文 参考訳(メタデータ) (2022-11-28T19:41:56Z) - Deployment of ML Models using Kubeflow on Different Cloud Providers [0.17205106391379021]
Kubeflow上にパイプラインという形で、エンドツーエンドの機械学習モデルを作成します。
セットアップの容易さ、デプロイメントモデル、パフォーマンス、制限、ツールの機能など、さまざまなポイントを分析します。
論文 参考訳(メタデータ) (2022-06-27T22:46:11Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - Auto-Split: A General Framework of Collaborative Edge-Cloud AI [49.750972428032355]
本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。
私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。
論文 参考訳(メタデータ) (2021-08-30T08:03:29Z) - Machine Learning Algorithms for Active Monitoring of High Performance
Computing as a Service (HPCaaS) Cloud Environments [0.0]
本稿では,HPCプラットフォームとして構成されたクラウドインフラストラクチャ上で動作するエンジニアリングアプリケーションの実用性について検討する。
この研究で考慮された工学的応用としては、ロスアラモス国立研究所が開発した放射線輸送コードMCNP6、オープンソースの計算流体力学コードOpenFOAM、素数分解に使用される一般数場シーブアルゴリズムCADONFSなどがある。
論文 参考訳(メタデータ) (2020-09-26T01:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。