論文の概要: Deep-Learning-Driven Prefetching for Far Memory
- arxiv url: http://arxiv.org/abs/2506.00384v1
- Date: Sat, 31 May 2025 04:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.186013
- Title: Deep-Learning-Driven Prefetching for Far Memory
- Title(参考訳): 遠記憶のためのディープラーニング駆動プレフェッチ
- Authors: Yutong Huang, Zhiyuan Guo, Yiying Zhang,
- Abstract要約: 本稿では,深層学習(DL)を利用したLinuxベースの遠メモリシステムであるFarSightについて述べる。
データ集約的な4つのワークロードに対するFarSightの評価は、最先端の遠メモリシステムよりも最大3.6倍性能が高いことを示している。
- 参考スコア(独自算出の注目度): 4.128884162772407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern software systems face increasing runtime performance demands, particularly in emerging architectures like far memory, where local-memory misses incur significant latency. While machine learning (ML) has proven effective in offline systems optimization, its application to high-frequency, runtime-level problems remains limited due to strict performance, generalization, and integration constraints. We present FarSight, a Linux-based far-memory system that leverages deep learning (DL) to efficiently perform accurate data prefetching. FarSight separates application semantics from runtime memory layout, allowing offline-trained DL models to predict access patterns using a compact vocabulary of ordinal possibilities, resolved at runtime through lightweight mapping structures. By combining asynchronous inference, lookahead prediction, and a cache-resident DL model, FarSight achieves high prediction accuracy with low runtime overhead. Our evaluation of FarSight on four data-intensive workloads shows that it outperforms the state-of-the-art far-memory system by up to 3.6 times. Overall, this work demonstrates the feasibility and advantages of applying modern ML techniques to complex, performance-critical software runtime problems.
- Abstract(参考訳): 現代のソフトウェアシステムは、特にローカルメモリが大きな遅延を逃すような、ファームメモリのような新しいアーキテクチャにおいて、ランタイムパフォーマンスの要求が増大している。
機械学習(ML)はオフラインシステムの最適化に有効であることが証明されているが、その高周波、ランタイムレベルの問題への応用は、厳格なパフォーマンス、一般化、統合の制約のために制限されている。
本稿では,深層学習(DL)を利用したLinuxベースの遠メモリシステムであるFarSightについて述べる。
FarSightはアプリケーションのセマンティクスを実行時のメモリレイアウトから分離し、オフラインでトレーニングされたDLモデルは、軽量なマッピング構造を通じて実行時に解決された順序可能性のコンパクトな語彙を使ってアクセスパターンを予測することができる。
非同期推論、ルックアヘッド予測、キャッシュ常駐型DLモデルを組み合わせることで、FarSightはランタイムオーバーヘッドの低い高い予測精度を実現する。
データ集約的な4つのワークロードに対するFarSightの評価は、最先端の遠メモリシステムよりも最大3.6倍性能が高いことを示している。
全体として、この研究は、複雑なパフォーマンスクリティカルなソフトウェアランタイム問題にモダンなML技術を適用する可能性と利点を示しています。
関連論文リスト
- A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs [7.816840847892339]
投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。
本研究では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。
提案手法は,最小限のアーキテクチャ変更とデータトレーニングを必要としながら,最高のパフォーマンス・メモリ比の1つを達成した。
論文 参考訳(メタデータ) (2024-05-30T17:54:35Z) - JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。
我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。
実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T23:02:04Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - KML: Using Machine Learning to Improve Storage Systems [0.2810625954925814]
機械学習技術はパターンを学習し、それらから一般化し、最適なソリューションを可能にすることを約束する。
我々はKMLアーキテクチャのプロトタイプを開発し、最適な読み出しと読み出しサイズという2つの問題に適用する。
実験の結果、KMLはOSのリソースをほとんど消費せず、遅延を無視できるだけでなく、I/Oスループットを最大2.3倍または15倍改善できるパターンを学習できることがわかった。
論文 参考訳(メタデータ) (2021-11-22T21:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。