Fugu-MT 論文翻訳(概要): A Practical Cross-Layer Approach for ML-Driven Storage Placement in Warehouse-Scale Computers

論文の概要: A Practical Cross-Layer Approach for ML-Driven Storage Placement in Warehouse-Scale Computers

arxiv url: http://arxiv.org/abs/2501.05651v1
Date: Fri, 10 Jan 2025 01:42:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.110756
Title: A Practical Cross-Layer Approach for ML-Driven Storage Placement in Warehouse-Scale Computers
Title（参考訳）: 倉庫規模のコンピュータにおけるML駆動型ストレージ配置のための実践的クロスレイア手法
Authors: Chenxi Yang, Yan Li, Martin Maas, Mustafa Uysal, Ubaid Ullah Hafeez, Arif Merchant, Richard McDougall,
Abstract要約: ストレージシステムは倉庫規模のコンピュータの総所有コスト(TCO)の大部分を占めている。データ配置のようなストレージシステム効率の重要な問題を解決する機械学習(ML)ベースの手法は、大きな可能性を秘めている。この問題を,Googleにおける実世界のハイパースケールデータセンター展開の文脈で検討する。本稿では、MLをストレージシステムから外し、その上で実行されるアプリケーションで実行する層間アプローチを提案する。
参考スコア（独自算出の注目度）: 4.849222239746218
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Storage systems account for a major portion of the total cost of ownership (TCO) of warehouse-scale computers, and thus have a major impact on the overall system's efficiency. Machine learning (ML)-based methods for solving key problems in storage system efficiency, such as data placement, have shown significant promise. However, there are few known practical deployments of such methods. Studying this problem in the context of real-world hyperscale data center deployments at Google, we identify a number of challenges that we believe cause this lack of practical adoption. Specifically, prior work assumes a monolithic model that resides entirely within the storage layer, an unrealistic assumption in real-world data center deployments. We propose a cross-layer approach that moves ML out of the storage system and performs it in the application running on top of it, co-designed with a scheduling algorithm at the storage layer that consumes predictions from these application-level models. This approach combines small, interpretable models with a co-designed heuristic that adapts to different online environments. We build a proof-of-concept of this approach in a production distributed computation framework at Google. Evaluations in a test deployment and large-scale simulation studies using production traces show improvements of as much as 3.47x in TCO savings compared to state of the art baselines. We believe this work represents a significant step towards more practical ML-driven storage placement in warehouse-scale computers.
Abstract（参考訳）: ストレージシステムは倉庫規模のコンピュータの総所有コスト(TCO)の大部分を占めており、システム全体の効率に大きな影響を与えている。データ配置のようなストレージシステム効率の重要な問題を解決する機械学習(ML)ベースの手法は、大きな可能性を秘めている。しかし、そのような方法の実践的な展開は知られていない。この問題を、Googleにおける実世界のハイパースケールデータセンターの展開という文脈で検討し、この実践的採用の欠如の原因となる、いくつかの課題を特定します。特に、以前の作業では、実際のデータセンタのデプロイにおいて非現実的な仮定である、ストレージ層内に完全に存在するモノリシックモデルを前提としています。我々は,MLをストレージシステムから外し,その上で動作しているアプリケーションで実行するクロスレイヤアプローチを提案し,これらのアプリケーションレベルのモデルから予測を消費するストレージ層におけるスケジューリングアルゴリズムと共同設計する。このアプローチは、小さな解釈可能なモデルと、異なるオンライン環境に適応する、共設計のヒューリスティックを組み合わせる。このアプローチの実証は、Googleのプロダクション分散計算フレームワークに構築されています。試験展開と生産トレースを用いた大規模シミュレーションによる評価は, 最先端のベースラインと比較して, TCO貯蓄の最大3.47倍の改善が見られた。この作業は、倉庫規模のコンピュータにおいて、より実用的なML駆動のストレージ配置に向けた重要なステップであると考えています。

関連論文リスト

Collaborative LLM Inference via Planning for Efficient Reasoning [50.04696654679751]
本稿では,プランナーモデルがまず,その問題の蒸留および高レベルの抽象化として定義されたプランを生成するテストタイム協調フレームワークを提案する。小型と大型のモデルは、プランナーと理性士として交代で働き、複雑なタスクを協調的に解決するために、多ラウンドのカスケードでプランを交換する。提案手法は,強力なプロプライエタリモデルに匹敵する精度を実現し,有償推論への依存を著しく低減する。
論文参考訳（メタデータ） (2025-06-13T08:35:50Z)
Evaluating the Efficacy of LLM-Based Reasoning for Multiobjective HPC Job Scheduling [6.623504719591386]
大規模言語モデル(LLM)ベースのスケジューラはReActスタイルのフレームワークを使用する(Reason + Act) Systemはスクラッチパッドメモリを内蔵し、スケジューリング履歴を追跡し、自然言語のフィードバックを通じて決定を洗練する。我々は,OpenAI の O4-Mini と Anthropic の Claude 3.7 を用いて,実世界の7つの HPC ワークロードシナリオに対してアプローチを評価した。
論文参考訳（メタデータ） (2025-05-29T14:25:29Z)
MLKV: Efficiently Scaling up Large Embedding Model Training with Disk-based Key-Value Storage [22.848456481878568]
本稿では,MLKVを提案する。MLKVは,組込みモデルトレーニングにおけるスケーラビリティの課題に対処するために設計された,効率的で再利用可能なデータストレージフレームワークである。オープンソースのワークロードの実験では、MLKVは、産業的な強度を持つキーバリューストア上に構築されたオフロード戦略を1.6-12.6倍上回っている。
論文参考訳（メタデータ） (2025-04-02T08:57:01Z)
Cost-Efficient Continual Learning with Sufficient Exemplar Memory [55.77835198580209]
連続学習(CL)研究は通常、非常に制約のあるメモリ資源を前提としている。本研究では,メモリが豊富である新しい環境におけるCLについて検討する。提案手法は,計算コストを既存手法の4/3に削減しつつ,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-02-11T05:40:52Z)
Dynamic Adaptation in Data Storage: Real-Time Machine Learning for Enhanced Prefetching [40.13303683102544]
本研究は,マルチ階層ストレージシステムにおけるデータプレフェッチングの革命に,ストリーミング機械学習の適用について検討する。従来のバッチトレーニングモデルとは異なり、ストリーミング機械学習は適応性、リアルタイム洞察、計算効率を提供する。
論文参考訳（メタデータ） (2024-12-29T17:39:37Z)
A Survey on Large Language Model Acceleration based on KV Cache Management [21.4802409745396]
大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、マルチモーダルタスクなど、幅広い領域に革命をもたらした。 LLMの計算とメモリ要求は、それらを現実世界、長期コンテキスト、リアルタイムアプリケーションにスケールする際に大きな課題を生じさせる。このサーベイは、LLMアクセラレーションのためのKVキャッシュ管理戦略を包括的に概観し、トークンレベル、モデルレベル、システムレベルの最適化に分類する。
論文参考訳（メタデータ） (2024-12-27T04:17:57Z)
LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment [13.235417359529965]
LSAQ(Layer-Specific Adaptive Quantization)は,大規模言語モデル(LLM)の適応的量子化と動的展開を行うシステムである。このシステムは、エッジデバイスのリソース可用性に応じて、リアルタイムに量子化戦略を適応的に調整し、異なる精度レベルを異なる重要性の層に割り当てる。
論文参考訳（メタデータ） (2024-12-24T03:43:15Z)
Bullion: A Column Store for Machine Learning [4.096087402737292]
本稿では,機械学習処理に適した列記憶システムであるBullionについて述べる。 Bundyはデータコンプライアンスの複雑さに対処し、長いシーケンススパース機能のエンコーディングを最適化し、拡張可能なプロジェクションを効率的に管理し、ストレージに機能量子化を導入し、包括的なカスケードエンコーディングフレームワークを提供する。予備的な実験結果と理論的分析は、機械学習ワークロードのユニークな要求に直面して、Bullionが強力なパフォーマンスを提供する能力が改善されたことを示している。
論文参考訳（メタデータ） (2024-04-13T05:01:54Z)
Control and Automation for Industrial Production Storage Zone: Generation of Optimal Route Using Image Processing [49.1574468325115]
本稿では,DIPを用いた生産ラインモデルのゾーンに対する産業自動化手法の開発に焦点をあてる。新カスケード法は、それぞれの段階を適切な方法で定義し、関連する手法を開発に含めることを可能にした。システムはOpenCVライブラリをベースとしており、Java言語に基づいたオブジェクト指向プログラミング(OOP)プラットフォーム上に実装された人工視覚に焦点を当てたツールである。
論文参考訳（メタデータ） (2024-03-15T06:50:19Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
SQLNet: Scale-Modulated Query and Localization Network for Few-Shot Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文参考訳（メタデータ） (2023-11-16T16:50:56Z)
ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。 LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文参考訳（メタデータ） (2023-10-04T17:34:00Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
Towards an Efficient ML System: Unveiling a Trade-off between Task Accuracy and Engineering Efficiency in a Large-scale Car Sharing Platform [0.0]
本稿では,実践者のドメインに存在する多数のデータセット,分類器,配布外検知器,予測テーブルを単一のMLに記述する,テキスト効率中心型MLシステムを提案する。実世界のカーシェアリングプラットフォームにおける様々な画像認識タスクの下で、提案システムの構築と、この旅から学んだ教訓について検討した。
論文参考訳（メタデータ） (2022-10-10T15:40:50Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文参考訳（メタデータ） (2020-08-10T06:07:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。