論文の概要: Adaptive Execution Scheduler for DataDios SmartDiff
- arxiv url: http://arxiv.org/abs/2510.07811v1
- Date: Thu, 09 Oct 2025 05:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.889916
- Title: Adaptive Execution Scheduler for DataDios SmartDiff
- Title(参考訳): DataDios SmartDiffのための適応実行スケジューリング
- Authors: Aryan Poduri,
- Abstract要約: 2つの実行モードを持つ1つの差分エンジン(SmartDiff)に対する適応型スケジューラを提案する。
スケジューラは、CPUとメモリの固定予算内でバッチサイズとワーカー/スレッド数を調整し、p95レイテンシを最小限にする。
合成と公開のベンチマークで、スケジューラは、調整したウォームアップに比べて、p95のレイテンシを23~28%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an adaptive scheduler for a single differencing engine (SmartDiff) with two execution modes: (i) in-memory threads and (ii) Dask based parallelism. The scheduler continuously tunes batch size and worker/thread count within fixed CPU and memory budgets to minimize p95 latency. A lightweight preflight profiler estimates bytes/row and I/O rate; an online cost/memory model prunes unsafe actions; and a guarded hill-climb policy favors lower latency with backpressure and straggler mitigation. Backend selection is gated by a conservative working-set estimate so that in-memory execution is chosen when safe, otherwise Dask is used. Across synthetic and public tabular benchmarks, the scheduler reduces p95 latency by 23 to 28 percent versus a tuned warm-up heuristic (and by 35 to 40 percent versus fixed grid baselines), while lowering peak memory by 16 to 22 percent (25 to 32 percent vs. fixed) with zero OOMs and comparable throughput.
- Abstract(参考訳): 2つの実行モードを持つ1つの差分エンジン(SmartDiff)に対する適応型スケジューラを提案する。
(i)インメモリスレッドおよび
(二)ダスクに基づく並列性。
スケジューラは、p95レイテンシを最小限に抑えるため、固定CPUとメモリ予算内で、バッチサイズとワーカー/スレッド数を継続的に調整する。
軽量のプレフライトプロファイラは、バイト/ローとI/Oレートを推定し、オンラインのコスト/メモリモデルは、安全でないアクションを経験する。
バックエンドの選択は保守的なワークセットの見積で強制され、安全であればメモリ内実行が選択される。
このスケジューラは、合成と公開のタブラベンチマーク全体にわたって、p95のレイテンシを、調整されたウォームアップヒューリスティック(固定グリッドベースラインに対して35~40%)に比べて23~28%削減し、ピークメモリを16~22%削減し(25~32%)、OOMと同等のスループットを実現した。
関連論文リスト
- dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Inference-Time Hyper-Scaling with KV Cache Compression [2.6025296740199235]
Dynamic Memory Sparsification (DMS) はKVキャッシュをスカラー化するための新しい手法である。
DMSは、同等の推論ランタイムとメモリ負荷の精度を向上することを示す。
GPQAで平均9.1ポイント,GPQAで平均7.6ポイント,LiveCodeBenchで平均9.6ポイント,Qwen-R1 32Bを向上させる。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z) - Puppeteer: A Random Forest-based Manager for Hardware Prefetchers across
the Memory Hierarchy [1.5049442691806052]
そこで我々はPuppeteerを,ランダムなフォレスト回帰器のスイートを用いて,メモリ階層の各レベルにおいてどのプレフェッシャーをオンすべきかを実行時に決定するハードウェアプレフェッシャーマネージャとして提案する。
Puppeteerを使うことで、1 Core (1C) で46.4%、4 Core (4C) で25.8%、SPEC 2017 SPEC2006と10KBのオーバーヘッドを持つクラウドスイートで平均して8 Core (8C) プロセッサで11.9%改善できる。
論文 参考訳(メタデータ) (2022-01-28T10:25:12Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。