論文の概要: Learning Semantics, Not Addresses: Runtime Neural Prefetching for Far Memory
- arxiv url: http://arxiv.org/abs/2506.00384v2
- Date: Sun, 05 Oct 2025 21:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.989514
- Title: Learning Semantics, Not Addresses: Runtime Neural Prefetching for Far Memory
- Title(参考訳): セマンティックスを学ぶ、アドレスではなく:遠記憶のための実行時ニューラルプレフェッチ
- Authors: Yutong Huang, Zhiyuan Guo, Yiying Zhang,
- Abstract要約: アプリケーションセマンティクスをランタイムメモリレイアウトから切り離してディープラーニングを活用する,Linuxベースの初の遠メモリシステムであるFarSightを紹介した。
4つのデータ集約ワークロードで、FarSightは最先端の3.6倍のパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 5.122853300811336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory prefetching has long boosted CPU caches and is increasingly vital for far-memory systems, where large portions of memory are offloaded to cheaper, remote tiers. While effective prefetching requires accurate prediction of future accesses, prior ML approaches have been limited to simulation or small-scale hardware. We introduce FarSight, the first Linux-based far-memory system to leverage deep learning by decoupling application semantics from runtime memory layout. This separation enables offline-trained models to predict access patterns over a compact ordinal vocabulary, which are resolved at runtime through lightweight mappings. Across four data-intensive workloads, FarSight delivers up to 3.6x higher performance than the state-of-the-art.
- Abstract(参考訳): メモリプリフェッチはCPUキャッシュを長く向上させており、メモリの大部分をオフロードしてより安価なリモート層にするという、遠記憶システムにとってますます重要になっている。
効果的なプリフェッチは将来のアクセスの正確な予測を必要とするが、以前のMLアプローチはシミュレーションや小規模ハードウェアに限られていた。
アプリケーションセマンティクスをランタイムメモリレイアウトから切り離してディープラーニングを活用する,Linuxベースの初の遠メモリシステムであるFarSightを紹介した。
この分離により、オフライントレーニングされたモデルは、軽量マッピングによって実行時に解決されるコンパクトな順序語彙上のアクセスパターンを予測することができる。
4つのデータ集約ワークロードで、FarSightは最先端の3.6倍のパフォーマンスを提供する。
関連論文リスト
- A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs [7.816840847892339]
投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。
本研究では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。
提案手法は,最小限のアーキテクチャ変更とデータトレーニングを必要としながら,最高のパフォーマンス・メモリ比の1つを達成した。
論文 参考訳(メタデータ) (2024-05-30T17:54:35Z) - JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。
我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。
実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T23:02:04Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Optimizing Memory Mapping Using Deep Reinforcement Learning [29.48627805378257]
本稿では,機械学習プログラムのコンパイル中に発生するメモリマッピング問題に焦点をあてる。
本稿では,強化学習を用いたメモリマッピング問題の解法を提案する。
また、Reinforcement Learning AgentであるmalocMuZeroを導入し、このゲームで新しい改良されたメモリマッピングソリューションを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-05-11T11:55:16Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - KML: Using Machine Learning to Improve Storage Systems [0.2810625954925814]
機械学習技術はパターンを学習し、それらから一般化し、最適なソリューションを可能にすることを約束する。
我々はKMLアーキテクチャのプロトタイプを開発し、最適な読み出しと読み出しサイズという2つの問題に適用する。
実験の結果、KMLはOSのリソースをほとんど消費せず、遅延を無視できるだけでなく、I/Oスループットを最大2.3倍または15倍改善できるパターンを学習できることがわかった。
論文 参考訳(メタデータ) (2021-11-22T21:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。