論文の概要: MaLV-OS: Rethinking the Operating System Architecture for Machine Learning in Virtualized Clouds
- arxiv url: http://arxiv.org/abs/2508.03676v1
- Date: Tue, 05 Aug 2025 17:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.10443
- Title: MaLV-OS: Rethinking the Operating System Architecture for Machine Learning in Virtualized Clouds
- Title(参考訳): MaLV-OS: 仮想化クラウドにおける機械学習のためのオペレーティングシステムアーキテクチャの再考
- Authors: Stella Bitchebe, Oana Balmau,
- Abstract要約: MLモデルとカーネルアルゴリズムの性能を向上させるため,ML特化OSであるMaLV-OSを提案する。
MaLV-OSアーキテクチャは、モデルのシステムに敏感な部分をOSにオフロードし、モデルの複雑さとプログラミングを軽量化し、実行を高速化する。
柔軟性を高めるため、MaLV-OSのビジョンは、仮想マシンが、ユーザが実行しているモデルのパフォーマンスを改善することができるポリシーを動的に選択できるようにすることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large body of research has employed Machine Learning (ML) models to develop learned operating systems (OSes) and kernels. The latter dynamically adapts to the job load and dynamically adjusts resources (CPU, IO, memory, network bandwidth) allocation to respond to the actual user demand. What this work has in common is that it utilizes ML to improve kernel decisions. To this day, and to the best of our knowledge, no work has taken the opposite direction, i.e., using OS to improve ML. While some work proposes applying system-level optimizations to ML algorithms, they do not tailor the OS to adapt to the ML context. To address this limitation, we take an orthogonal approach in this paper by leveraging the OS to enhance the performance of ML models and algorithms. We explore the path towards an ML-specialized OS, MaLV-OS. MaLV-OS rethinks the OS architecture to make it specifically tailored to ML workloads, especially in virtualized clouds, which are now widely used to run ML applications. MaLV-OS envisioned architecture includes (1) a micro-kernel, Micro-LAKE, which allows kernel space applications to use the GPU, and (2) an MLaaS (ML as a Service) subsystem that gathers ML models to help Micro-LAKE with memory management and CPU scheduling. MaLV-OS architecture also offloads system-sensitive parts of the models to the OS, to lighten the model complexity and programming, and speed up its execution. Finally, MaLV-OS integrates an open-source GPU virtualization software, merged directly into the hypervisor. For more flexibility, MaLV-OS vision is to enable the virtual machine to dynamically select MLaaS policies that can improve the performance of the model the user is running. Because MLaaS is designed as loadable kernel modules, the MaLV-OS architecture enables the dynamic addition of new capabilities to the MLaaS subsystem.
- Abstract(参考訳): 多くの研究機関が機械学習(ML)モデルを使用して、学習されたオペレーティングシステム(OS)とカーネルを開発した。
後者はジョブ負荷に動的に対応し、リソース(CPU、IO、メモリ、ネットワーク帯域幅)を動的に調整し、実際のユーザ要求に対応する。
この作業が共通しているのは、MLを使用してカーネルの決定を改善することだ。
今日に至るまで、私たちの知る限りでは、その逆の方向、すなわちOSを使ってMLを改善する作業は行われていない。
MLアルゴリズムにシステムレベルの最適化を適用することを提案する研究もあるが、MLコンテキストに適応するようにOSをカスタマイズするものではない。
この制限に対処するため,本論文では,OSを活用してMLモデルとアルゴリズムの性能向上を図る。
ML特化OSであるMaLV-OSへの道を探る。
MaLV-OSはOSアーキテクチャを再考し、特にMLアプリケーションの実行に広く使用されている仮想化クラウドにおいて、MLワークロードに特化するようにした。
MaLV-OSが想定するアーキテクチャには、(1)マイクロカーネルであるMicro-LAKE、(2)カーネル空間アプリケーションがGPUを使用することを可能にするMicro-LAKE、(2)MLモデルを集めてメモリ管理とCPUスケジューリングを支援するMLaaS(ML as a Service)サブシステムが含まれる。
MaLV-OSアーキテクチャはまた、モデルのシステムに敏感な部分をOSにオフロードし、モデルの複雑さとプログラミングを軽量化し、実行を高速化する。
最後に、MaLV-OSはオープンソースのGPU仮想化ソフトウェアを統合し、直接ハイパーバイザにマージする。
柔軟性を高めるため、MaLV-OSのビジョンは、仮想マシンがMLaaSポリシーを動的に選択できるようにすることで、ユーザが実行しているモデルのパフォーマンスを改善することである。
MLaaSはロード可能なカーネルモジュールとして設計されているため、MaLV-OSアーキテクチャはMLaaSサブシステムに新しい機能を動的に追加することを可能にする。
関連論文リスト
- Is Intelligence the Right Direction in New OS Scheduling for Multiple Resources in Cloud Environments? [4.546118183880352]
OSML+は、共同配置されたクラウドサービスのためのMLベースの新しいリソーススケジューリングメカニズムである。
私たちの設計は、最新のオフ・ザ・シェルフの大規模サーバなど、さまざまなクラウドサーバでうまく機能します。
論文 参考訳(メタデータ) (2025-04-21T11:09:43Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - A Large-Scale Study of Model Integration in ML-Enabled Software Systems [4.776073133338119]
機械学習(ML)とそのソフトウェアシステムへの統合は、開発プラクティスを大きく変えました。
本稿では2,928のオープンソースML対応ソフトウェアシステムについて大規模に検討する。
論文 参考訳(メタデータ) (2024-08-12T15:28:40Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。
本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文 参考訳(メタデータ) (2023-10-02T16:55:19Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z) - MLGO: a Machine Learning Guided Compiler Optimizations Framework [0.0]
この作業は、実際の設定で複雑なコンパイラパスで機械学習を初めて完全に統合した作業です。
インライン・フォー・サイズモデルのトレーニングには2つの異なるMLアルゴリズムを使用し、最大7%の削減を実現している。
同じモデルは、実世界のターゲットの多様性、そして数ヶ月のアクティブな開発の後、同じターゲットセットにうまく一般化します。
論文 参考訳(メタデータ) (2021-01-13T00:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。