Fugu-MT 論文翻訳(概要): KML: Using Machine Learning to Improve Storage Systems

論文の概要: KML: Using Machine Learning to Improve Storage Systems

arxiv url: http://arxiv.org/abs/2111.11554v1
Date: Mon, 22 Nov 2021 21:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-24 15:59:14.828522
Title: KML: Using Machine Learning to Improve Storage Systems
Title（参考訳）: KML: 機械学習を使ってストレージシステムを改善する
Authors: Ibrahim Umit Akgun, Ali Selman Aydin, Aadil Shaikh, Lukas Velikov, Andrew Burford, Michael McNeill, Michael Arkhangelskiy, and Erez Zadok
Abstract要約: 機械学習技術はパターンを学習し、それらから一般化し、最適なソリューションを可能にすることを約束する。我々はKMLアーキテクチャのプロトタイプを開発し、最適な読み出しと読み出しサイズという2つの問題に適用する。実験の結果、KMLはOSのリソースをほとんど消費せず、遅延を無視できるだけでなく、I/Oスループットを最大2.3倍または15倍改善できるパターンを学習できることがわかった。
参考スコア（独自算出の注目度）: 0.2810625954925814
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Operating systems include many heuristic algorithms designed to improve overall storage performance and throughput. Because such heuristics cannot work well for all conditions and workloads, system designers resorted to exposing numerous tunable parameters to users -- essentially burdening users with continually optimizing their own storage systems and applications. Storage systems are usually responsible for most latency in I/O heavy applications, so even a small overall latency improvement can be significant. Machine learning (ML) techniques promise to learn patterns, generalize from them, and enable optimal solutions that adapt to changing workloads. We propose that ML solutions become a first-class component in OSs and replace manual heuristics to optimize storage systems dynamically. In this paper, we describe our proposed ML architecture, called KML. We developed a prototype KML architecture and applied it to two problems: optimal readahead and NFS read-size values. Our experiments show that KML consumes little OS resources, adds negligible latency, and yet can learn patterns that can improve I/O throughput by as much as 2.3x or 15x for the two use cases respectively -- even for complex, never-before-seen, concurrently running mixed workloads on different storage devices.
Abstract（参考訳）: オペレーティングシステムには、全体的なストレージ性能とスループットを改善するために設計された多くのヒューリスティックアルゴリズムが含まれている。このようなヒューリスティックは、すべての条件やワークロードでうまく機能しないため、システム設計者は、ユーザに多数のチューニング可能なパラメータを公開することに頼った。ストレージシステムは通常、I/Oヘビーなアプリケーションでほとんどのレイテンシに責任があるため、全体のレイテンシが大幅に改善される可能性がある。機械学習(ml)技術は、パターンを学習し、それらから一般化し、ワークロードの変化に対応する最適なソリューションを可能にする。 mlソリューションはossの第一級コンポーネントとなり,ストレージシステムを動的に最適化するために手動ヒューリスティックスを置き換えることを提案する。本稿では,KMLと呼ばれるMLアーキテクチャについて述べる。我々は,KMLアーキテクチャのプロトタイプを開発し,これを最適な読み出し値とNFS読み出しサイズ値の2つの問題に適用した。我々の実験によると、KMLはOSリソースをほとんど消費せず、無視可能なレイテンシを追加し、そして2つのユースケースで最大2.3倍または15倍のI/Oスループットを向上できるパターンを学ぶことができる。

関連論文リスト

BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving [3.620158146761518]
BucketServeは、推論パフォーマンスを最適化するために設計されたバケットベースの動的フレームワークである。 UELLMと比較して1.93倍の要求負荷を達成でき、UELLMよりも1.975倍高いシステム負荷能力を示す。
論文参考訳（メタデータ） (2025-07-23T01:51:48Z)
SysLLMatic: Large Language Models are Software System Optimizers [2.4416377721219145]
提案するシステムSysLLMaticは,大規模言語モデルとプロファイリング誘導フィードバックとシステム性能の洞察を統合したシステムである。我々は、HumanEval_Bench(C++の競合プログラミング)、SciMark2(Javaの科学的カーネル)、DaCapoBench(Javaの大規模ソフトウェアシステム)の3つのベンチマークスイートで評価した。
論文参考訳（メタデータ） (2025-06-02T01:57:21Z)
Deep-Learning-Driven Prefetching for Far Memory [4.128884162772407]
本稿では,深層学習(DL)を利用したLinuxベースの遠メモリシステムであるFarSightについて述べる。データ集約的な4つのワークロードに対するFarSightの評価は、最先端の遠メモリシステムよりも最大3.6倍性能が高いことを示している。
論文参考訳（メタデータ） (2025-05-31T04:27:22Z)
Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。モデル入力に直接デモ例を埋め込む。長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文参考訳（メタデータ） (2025-05-26T10:49:44Z)
MLZero: A Multi-Agent System for End-to-end Machine Learning Automation [48.716299953336346]
MLZeroはLarge Language Models(LLM)を利用した新しいマルチエージェントフレームワークである。認知認識モジュールが最初に使用され、生のマルチモーダル入力を知覚コンテキストに変換する。 MLZeroは、MLE-Bench Liteで優れたパフォーマンスを示し、成功率とソリューション品質の両方で競合他社を上回っている。
論文参考訳（メタデータ） (2025-05-20T05:20:53Z)
PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System [13.678531084541666]
PAPI は PIM 対応のヘテロジニアスアーキテクチャで,計算バウンドカーネルやメモリバウンドカーネルを適切なハードウェアユニットに動的にスケジューリングする。 PAPIは最先端の異種加速器と最先端のPIM専用加速器で1.8$times$と11.1$times$を達成している。
論文参考訳（メタデータ） (2025-02-21T13:52:31Z)
PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7309692684728613]
大規模言語モデル (LLMs) は様々なアプリケーションで広く使われているが、その相当な計算要求は大きな課題を生んでいる。モデル重みに対するメモリリードとKVキャッシュを重畳してLLM推論を最適化する新しいプレフェッチフレームワークであるPreSERVEについて述べる。
論文参考訳（メタデータ） (2025-01-14T15:14:10Z)
Efficiently Serving Large Multimodal Models Using EPD Disaggregation [24.05805398635414]
Encode-Prefill-Decode Disaggregation(エンコード・プリフィル・デコード・デコード・デアグリゲーション)という,エンコード・プリフィル・デコード・デコード・デアグリゲーション(Encode-Prefill-Decode Disaggregation)というフレームワークを紹介した。メモリ効率の大幅な向上(使用率の削減)、バッチサイズ(最大22$times$大きなもの)、10$times$より多くのイメージ/リクエスト、2.2$times$より大きなKVキャッシュ。
論文参考訳（メタデータ） (2024-12-25T10:11:31Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Preble: Efficient Distributed Prompt Scheduling for LLM Serving [8.706905652975554]
本稿では,プロンプト共有をターゲットとし最適化する最初の分散LLMサービスプラットフォームであるPrebleを提案する。我々は,新しいスケジューリングアルゴリズムと階層的スケジューリング機構を用いて,KV状態の再利用と計算負荷分散を協調的に最適化する分散スケジューリングシステムを構築した。 2つのオープンソースLCM上での実際のワークロードと要求到着パターンによるPrebleの評価は、平均レイテンシで1.5倍から14.5倍、p99レイテンシで2倍から10倍のSOTAサービスシステムより優れていることを示している。
論文参考訳（メタデータ） (2024-05-08T06:30:58Z)
PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文参考訳（メタデータ） (2024-04-10T17:00:04Z)
Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。 MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-07T08:34:57Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文参考訳（メタデータ） (2023-10-02T16:55:19Z)
Efficient Memory Management for Large Language Model Serving with PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文参考訳（メタデータ） (2023-09-12T12:50:04Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。