論文の概要: GrASP: A Generalizable Address-based Semantic Prefetcher for Scalable Transactional and Analytical Workloads
- arxiv url: http://arxiv.org/abs/2510.11011v1
- Date: Mon, 13 Oct 2025 05:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.206641
- Title: GrASP: A Generalizable Address-based Semantic Prefetcher for Scalable Transactional and Analytical Workloads
- Title(参考訳): GrASP: スケーラブルなトランザクションおよび分析ワークロードのための汎用的なアドレスベースのセマンティックプレファー
- Authors: Farzaneh Zirak, Farhana Choudhury, Renata Borovica-Gajic,
- Abstract要約: GrASPは、分析処理とトランザクション処理の両方のための学習ベースのプレファーである。
論理ブロックアドレスデルタを活用し、クエリ表現と結果エンコーディングを組み合わせることにより、プリフェッチ精度とスケーラビリティを向上させる。
実世界のデータセットとインダストリアルベンチマークの実験では、GrASPがトレーニングデータよりも250倍大きなデータセットに一般化されていることが示されている。
- 参考スコア(独自算出の注目度): 1.765116470522959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data prefetching--loading data into the cache before it is requested--is essential for reducing I/O overhead and improving database performance. While traditional prefetchers focus on sequential patterns, recent learning-based approaches, especially those leveraging data semantics, achieve higher accuracy for complex access patterns. However, these methods often struggle with today's dynamic, ever-growing datasets and require frequent, timely fine-tuning. Privacy constraints may also restrict access to complete datasets, necessitating prefetchers that can learn effectively from samples. To address these challenges, we present GrASP, a learning-based prefetcher designed for both analytical and transactional workloads. GrASP enhances prefetching accuracy and scalability by leveraging logical block address deltas and combining query representations with result encodings. It frames prefetching as a context-aware multi-label classification task, using multi-layer LSTMs to predict delta patterns from embedded context. This delta modeling approach enables GrASP to generalize predictions from small samples to larger, dynamic datasets without requiring extensive retraining. Experiments on real-world datasets and industrial benchmarks demonstrate that GrASP generalizes to datasets 250 times larger than the training data, achieving up to 45% higher hit ratios, 60% lower I/O time, and 55% lower end-to-end query execution latency than existing baselines. On average, GrASP attains a 91.4% hit ratio, a 90.8% I/O time reduction, and a 57.1% execution latency reduction.
- Abstract(参考訳): データプリフェッチ-要求される前にキャッシュにデータをロードする--I/Oオーバーヘッドを減らし、データベースのパフォーマンスを向上させるために不可欠である。
従来のPrefetcherはシーケンシャルパターンに重点を置いているが、最近の学習ベースのアプローチ、特にデータセマンティクスを活用するものは、複雑なアクセスパターンに対して高い精度を達成する。
しかし、これらの手法は、しばしば今日の動的で成長を続けるデータセットと競合し、頻繁でタイムリーな微調整を必要とする。
プライバシの制約は、完全なデータセットへのアクセスを制限し、サンプルから効果的に学習できるプリフェッチを必要とします。
これらの課題に対処するために、分析ワークロードとトランザクションワークロードの両方用に設計された学習ベースのプレフィッシャーであるGrASPを紹介します。
GrASPは論理ブロックアドレスデルタを活用し、クエリ表現と結果エンコーディングを組み合わせることにより、プリフェッチの精度とスケーラビリティを向上させる。
組込みコンテキストからデルタパターンを予測するために多層LSTMを用いて、プレフェッチをコンテキスト対応のマルチラベル分類タスクとしてフレーム化する。
このデルタモデリングアプローチにより、GrASPは、大規模なリトレーニングを必要とせずに、小さなサンプルからより大きな動的データセットへの予測を一般化することができる。
実世界のデータセットとインダストリアルベンチマークの実験では、GrASPはトレーニングデータよりも250倍大きなデータセットに一般化され、最大45%のヒット率、60%のI/O時間、既存のベースラインよりも55%低いエンドツーエンドクエリ実行レイテンシを実現している。
GrASPは平均91.4%のヒット率、90.8%のI/O時間短縮、57.1%の実行遅延削減を実現している。
関連論文リスト
- Tackling Federated Unlearning as a Parameter Estimation Problem [2.9085589574462816]
本研究は,情報理論に基づく効果的なフェデレート・アンラーニング・フレームワークを提案する。
本手法では, 忘れられているデータに最も敏感なパラメータのみを識別し, 選択的にリセットするために, 2次ヘッセン情報を用いる。
論文 参考訳(メタデータ) (2025-08-26T14:24:45Z) - Modeling Saliency Dataset Bias [17.325408195438857]
画像ベースサリエンシ予測の最近の進歩は、既存のベンチマーク上でのゴールド標準性能レベルに近づいている。
データセットバイアスのため、複数の正当性データセットにまたがる修正予測が依然として困難であることを示す。
本稿では,データセットに依存しないエンコーダ・デコーダ構造を20未満のパラメータで拡張する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:55:47Z) - AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [59.12061830645018]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。
2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Dynamic Data Pruning for Automatic Speech Recognition [58.95758272440217]
ASR(DDP-ASR)のダイナミック・データ・プルーニング(Dynamic Data Pruning for ASR)を導入し,音声関連データセットに特化して微細なプルーニングの粒度を提供する。
実験の結果,DDP-ASRは最大1.6倍のトレーニング時間を節約できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T14:17:36Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。