論文の概要: Deep-Learning-Driven Prefetching for Far Memory
- arxiv url: http://arxiv.org/abs/2506.00384v1
- Date: Sat, 31 May 2025 04:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.186013
- Title: Deep-Learning-Driven Prefetching for Far Memory
- Title(参考訳): 遠記憶のためのディープラーニング駆動プレフェッチ
- Authors: Yutong Huang, Zhiyuan Guo, Yiying Zhang,
- Abstract要約: 本稿では,深層学習(DL)を利用したLinuxベースの遠メモリシステムであるFarSightについて述べる。
データ集約的な4つのワークロードに対するFarSightの評価は、最先端の遠メモリシステムよりも最大3.6倍性能が高いことを示している。
- 参考スコア(独自算出の注目度): 4.128884162772407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern software systems face increasing runtime performance demands, particularly in emerging architectures like far memory, where local-memory misses incur significant latency. While machine learning (ML) has proven effective in offline systems optimization, its application to high-frequency, runtime-level problems remains limited due to strict performance, generalization, and integration constraints. We present FarSight, a Linux-based far-memory system that leverages deep learning (DL) to efficiently perform accurate data prefetching. FarSight separates application semantics from runtime memory layout, allowing offline-trained DL models to predict access patterns using a compact vocabulary of ordinal possibilities, resolved at runtime through lightweight mapping structures. By combining asynchronous inference, lookahead prediction, and a cache-resident DL model, FarSight achieves high prediction accuracy with low runtime overhead. Our evaluation of FarSight on four data-intensive workloads shows that it outperforms the state-of-the-art far-memory system by up to 3.6 times. Overall, this work demonstrates the feasibility and advantages of applying modern ML techniques to complex, performance-critical software runtime problems.
- Abstract(参考訳): 現代のソフトウェアシステムは、特にローカルメモリが大きな遅延を逃すような、ファームメモリのような新しいアーキテクチャにおいて、ランタイムパフォーマンスの要求が増大している。
機械学習(ML)はオフラインシステムの最適化に有効であることが証明されているが、その高周波、ランタイムレベルの問題への応用は、厳格なパフォーマンス、一般化、統合の制約のために制限されている。
本稿では,深層学習(DL)を利用したLinuxベースの遠メモリシステムであるFarSightについて述べる。
FarSightはアプリケーションのセマンティクスを実行時のメモリレイアウトから分離し、オフラインでトレーニングされたDLモデルは、軽量なマッピング構造を通じて実行時に解決された順序可能性のコンパクトな語彙を使ってアクセスパターンを予測することができる。
非同期推論、ルックアヘッド予測、キャッシュ常駐型DLモデルを組み合わせることで、FarSightはランタイムオーバーヘッドの低い高い予測精度を実現する。
データ集約的な4つのワークロードに対するFarSightの評価は、最先端の遠メモリシステムよりも最大3.6倍性能が高いことを示している。
全体として、この研究は、複雑なパフォーマンスクリティカルなソフトウェアランタイム問題にモダンなML技術を適用する可能性と利点を示しています。
関連論文リスト
- MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。
MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。
VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文 参考訳(メタデータ) (2025-12-04T12:56:30Z) - LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。
人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。
GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文 参考訳(メタデータ) (2025-10-21T17:58:17Z) - Leveraging Lightweight Generators for Memory Efficient Continual Learning [0.01874930567916036]
破滅的な忘れは、すべてのデータを以前のタスクからメモリに保持することで、簡単に軽減できる。
本稿では,メモリベースの連続学習アルゴリズムに必要なメモリを削減することを目的とする。
論文 参考訳(メタデータ) (2025-06-24T14:59:52Z) - MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。
MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。
Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文 参考訳(メタデータ) (2025-04-16T23:15:09Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs [7.816840847892339]
投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。
本研究では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。
提案手法は,最小限のアーキテクチャ変更とデータトレーニングを必要としながら,最高のパフォーマンス・メモリ比の1つを達成した。
論文 参考訳(メタデータ) (2024-05-30T17:54:35Z) - vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention [8.20523619534105]
PagedAttention は LLM サービスシステムにおける動的メモリ割り当ての一般的なアプローチである。
仮想メモリにおけるKVキャッシュの整合性を保ちながら、物理メモリのフラグメンテーションを軽減するアプローチとして、vAttentionを提案する。
全体として、vAttentionはPagedAttentionに代わるシンプルでポータブルでパフォーマンスの高いものだ。
論文 参考訳(メタデータ) (2024-05-07T16:00:32Z) - JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。
我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。
実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T23:02:04Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - GLIMMER: generalized late-interaction memory reranker [29.434777627686692]
メモリ拡張は、外部情報を言語モデルに組み込むための強力なアプローチである。
LUMENはメモリを部分的にプリコンプリートし、より小さなライブエンコーダでメモリ表現を更新する。
GLIMMERは,1) メモリ上に浅い再ランカを適用して,高速で検索品質を劇的に向上させることにより,強力なメモリ表現への自由アクセスを活用できる。
論文 参考訳(メタデータ) (2023-06-17T01:54:25Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - Optimizing Memory Mapping Using Deep Reinforcement Learning [29.48627805378257]
本稿では,機械学習プログラムのコンパイル中に発生するメモリマッピング問題に焦点をあてる。
本稿では,強化学習を用いたメモリマッピング問題の解法を提案する。
また、Reinforcement Learning AgentであるmalocMuZeroを導入し、このゲームで新しい改良されたメモリマッピングソリューションを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-05-11T11:55:16Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - KML: Using Machine Learning to Improve Storage Systems [0.2810625954925814]
機械学習技術はパターンを学習し、それらから一般化し、最適なソリューションを可能にすることを約束する。
我々はKMLアーキテクチャのプロトタイプを開発し、最適な読み出しと読み出しサイズという2つの問題に適用する。
実験の結果、KMLはOSのリソースをほとんど消費せず、遅延を無視できるだけでなく、I/Oスループットを最大2.3倍または15倍改善できるパターンを学習できることがわかった。
論文 参考訳(メタデータ) (2021-11-22T21:59:50Z) - Hierarchical Memory Matching Network for Video Object Segmentation [38.24999776705497]
本稿では,時間的スムーズさを活用しながら,複数スケールのメモリ実行を可能にする2つの高度なメモリ読み取りモジュールを提案する。
まず,非局所的な高密度メモリ読み出しを代替するガイド付きメモリマッチングモジュールを提案する。
階層型メモリマッチング方式を導入し、大小のメモリを粗大のメモリで読み取るトップkガイド型メモリマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2021-09-23T14:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。