論文の概要: Cloud-native RStudio on Kubernetes for Hopsworks
- arxiv url: http://arxiv.org/abs/2307.09132v1
- Date: Tue, 18 Jul 2023 10:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 15:22:47.304997
- Title: Cloud-native RStudio on Kubernetes for Hopsworks
- Title(参考訳): HopsworksのKubernetes上でのクラウドネイティブなRStudio
- Authors: Gibson Chikafa, Sina Sheikholeslami, Salman Niazi, Jim Dowling,
Vladimir Vlassov
- Abstract要約: RStudioサーバ(英語: RStudio server)は、R言語用のWebブラウザ上でアクセス可能なオープンソースの統合開発環境(IDE)である。
データ集約型AIプラットフォームであるHopsworks上で,マルチユーザ分散システムの設計と実装について述べる。
最もポピュラーなクラウドネイティブテクノロジであるDockerとApache Sparkを使って、マルチテナント環境に存在するパフォーマンス分離、セキュリティ、スケーリングの問題を解決しています。
- 参考スコア(独自算出の注目度): 0.530230364606655
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In order to fully benefit from cloud computing, services are designed
following the "multi-tenant" architectural model, which is aimed at maximizing
resource sharing among users. However, multi-tenancy introduces challenges of
security, performance isolation, scaling, and customization. RStudio server is
an open-source Integrated Development Environment (IDE) accessible over a web
browser for the R programming language. We present the design and
implementation of a multi-user distributed system on Hopsworks, a
data-intensive AI platform, following the multi-tenant model that provides
RStudio as Software as a Service (SaaS). We use the most popular cloud-native
technologies: Docker and Kubernetes, to solve the problems of performance
isolation, security, and scaling that are present in a multi-tenant
environment. We further enable secure data sharing in RStudio server instances
to provide data privacy and allow collaboration among RStudio users. We
integrate our system with Apache Spark, which can scale and handle Big Data
processing workloads. Also, we provide a UI where users can provide custom
configurations and have full control of their own RStudio server instances. Our
system was tested on a Google Cloud Platform cluster with four worker nodes,
each with 30GB of RAM allocated to them. The tests on this cluster showed that
44 RStudio servers, each with 2GB of RAM, can be run concurrently. Our system
can scale out to potentially support hundreds of concurrently running RStudio
servers by adding more resources (CPUs and RAM) to the cluster or system.
- Abstract(参考訳): クラウドコンピューティングのメリットを完全に享受するために、サービスは、ユーザ間のリソース共有を最大化することを目的とした"マルチテナント"アーキテクチャモデルに従って設計されている。
しかし、マルチテナントにはセキュリティ、パフォーマンスの分離、スケーリング、カスタマイズといった課題が伴う。
RStudioサーバ(英語: RStudio server)は、R言語用のWebブラウザ上でアクセス可能なオープンソースの統合開発環境(IDE)である。
本稿では,データ集約型aiプラットフォームであるhopsworks上で,rstudio as software as a service(saas)を提供するマルチテナントモデルに従って,マルチユーザ分散システムの設計と実装を行う。
私たちは、マルチテナント環境に存在するパフォーマンス分離、セキュリティ、スケーリングの問題を解決するために、最も人気のあるクラウドネイティブテクノロジであるDockerとKubernetesを使用しています。
さらに、RStudioサーバインスタンス内のセキュアなデータ共有により、データのプライバシを提供し、RStudioユーザ間のコラボレーションを可能にする。
当社のシステムをApache Sparkに統合することで,ビッグデータ処理ワークロードのスケールアップと処理が可能になります。
また、ユーザが独自の設定を提供し、独自のRStudioサーバインスタンスを完全にコントロールできるUIも提供しています。
このシステムは、4つのワーカノードを持つGoogle Cloud Platformクラスタ上でテストされ、それぞれに30GBのRAMが割り当てられた。
このクラスタでのテストでは、それぞれ2GBのRAMを持つ44のRStudioサーバを同時に実行することができた。
我々のシステムは、クラスタやシステムにより多くのリソース(CPUとRAM)を追加することで、数百のRStudioサーバを同時に実行する可能性がある。
関連論文リスト
- Heterogeneous federated collaborative filtering using FAIR: Federated
Averaging in Random Subspaces [32.657970881643614]
デバイス容量に基づいた埋め込みテーブルの任意の圧縮を可能にするFAIR(Federated Averaging in Random subspaces)を提案する。
FAIR on Neural Collaborative Filtering task with multiple datasets and confirmed that FAIR can collect and shared information from a wide range devices。
論文 参考訳(メタデータ) (2023-11-03T05:39:45Z) - Timely Asynchronous Hierarchical Federated Learning: Age of Convergence [59.96266198512243]
クライアント-エッジ-クラウドフレームワークを用いた非同期階層型フェデレーション学習環境について検討する。
クライアントはトレーニングされたパラメータをエッジサーバと交換し、ローカルに集約されたモデルを更新する。
各クライアントの目標は、クライアントのタイムラインを維持しながら、グローバルモデルに収束することだ。
論文 参考訳(メタデータ) (2023-06-21T17:39:16Z) - Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。
FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。
SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。
本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-20T10:49:22Z) - EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine [69.47822647770542]
並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。
RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。
ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
論文 参考訳(メタデータ) (2022-06-21T17:36:15Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - Reproducible and Portable Big Data Analytics in the Cloud [4.948702463455218]
クラウドでビッグデータアプリケーションを再現する上で,大きな課題は2つあります。
ひとつは、クラウドにおけるビッグデータ分析のエンドツーエンド実行を自動化する方法だ。
2つ目は、AWSやAzureなど、ひとつのクラウド用に開発されたアプリケーションで、別のクラウドで再現することは困難である。
論文 参考訳(メタデータ) (2021-12-17T20:52:03Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - Cloud Computing Concept and Roots [0.0]
クラウドコンピューティングは分散コンピューティングの特別な実装である。
スケーラビリティ、信頼性、分散透明性など、分散コンピューティングの多くの特性を継承した。
新しい処理とストレージリソースをCloudリソースプールにシームレスに追加することができる。
論文 参考訳(メタデータ) (2021-01-28T17:42:46Z) - Large-Scale Intelligent Microservices [24.99695289157708]
我々は、データベース操作を拡張してWebサービスプリミティブを含むApache Sparkベースのマイクロサービスオーケストレーションフレームワークを紹介します。
音声、視覚、検索、異常検出、テキスト分析などのインテリジェントなサービスに対して大規模なクライアントを提供する。
論文 参考訳(メタデータ) (2020-09-17T03:38:28Z) - A Privacy-Preserving Distributed Architecture for
Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。
クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文 参考訳(メタデータ) (2020-03-30T15:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。