論文の概要: Futureproof Static Memory Planning
- arxiv url: http://arxiv.org/abs/2504.04874v1
- Date: Mon, 07 Apr 2025 09:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:09:24.440617
- Title: Futureproof Static Memory Planning
- Title(参考訳): 将来的な静的記憶計画
- Authors: Christos Lamprakos, Panagiotis Xanthopoulos, Manolis Katsaragakis, Sotirios Xydis, Dimitrios Soudris, Francky Catthoor,
- Abstract要約: ディープニューラルネットワークの静的アーキテクチャと組み合わせた"AIメモリウォール"は、動的ストレージ割り当てへの関心を再燃させた。
本稿では,100万インスタンスを対象とした低フラグメンテーション,高性能DSA実装であるIdeallocを提案する。
- 参考スコア(独自算出の注目度): 7.031511274524772
- License:
- Abstract: The NP-complete combinatorial optimization task of assigning offsets to a set of buffers with known sizes and lifetimes so as to minimize total memory usage is called dynamic storage allocation (DSA). Existing DSA implementations bypass the theoretical state-of-the-art algorithms in favor of either fast but wasteful heuristics, or memory-efficient approaches that do not scale beyond one thousand buffers. The "AI memory wall", combined with deep neural networks' static architecture, has reignited interest in DSA. We present idealloc, a low-fragmentation, high-performance DSA implementation designed for million-buffer instances. Evaluated on a novel suite of particularly hard benchmarks from several domains, idealloc ranks first against four production implementations in terms of a joint effectiveness/robustness criterion.
- Abstract(参考訳): NP完全組合せ最適化タスクは、メモリ使用量を最小限に抑えるために、既知のサイズと寿命を持つバッファのセットにオフセットを割り当てるタスクを動的ストレージアロケーション(DSA)と呼ぶ。
既存のDSA実装は、高速だが無駄なヒューリスティックや1000バッファを超えないメモリ効率のアプローチを好んで、理論上の最先端アルゴリズムを回避している。
AIメモリウォールとディープニューラルネットワークの静的アーキテクチャが組み合わさって、DSAへの関心が再燃している。
本稿では,100万インスタンスを対象とした低フラグメンテーション,高性能DSA実装であるIdeallocを提案する。
いくつかの領域の特にハードなベンチマークからなる新しいスイートで評価され、イデオロクは、共同効率/ロバスト性基準の観点から、まず4つのプロダクション実装に対してランク付けされる。
関連論文リスト
- A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models [22.725326215887435]
本稿では,事前学習および微調整を行う大規模言語モデルのためのランダム化部分空間最適化フレームワークを提案する。
提案手法は,高次元学習問題を一連の低次元サブプロブレムに分解する。
この構造的次元減少により,アクティベーションと状態の両方のメモリ使用量を同時に削減できる。
論文 参考訳(メタデータ) (2025-02-11T03:32:10Z) - Efficient Adaptive Optimization via Subset-Norm and Subspace-Momentum: Fast, Memory-Reduced Training with Convergence Guarantees [5.399838579600896]
本稿では,メモリ最適化のための2つの補完手法を提案する。
1つのテクニックであるSubset-Normは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
別の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
論文 参考訳(メタデータ) (2024-11-11T16:48:07Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Parsimonious Optimal Dynamic Partial Order Reduction [1.5029560229270196]
本稿では,Parsimonious-Optimal DPOR(POP)を提案する。
POPは、(i)同じ人種の複数の逆転を避ける擬似的な人種反転戦略を含む、いくつかの新しいアルゴリズム技術を組み合わせている。
我々のNidhuggの実装は、これらの手法が並列プログラムの解析を著しく高速化し、メモリ消費を抑えられることを示している。
論文 参考訳(メタデータ) (2024-05-18T00:07:26Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Adaptive Thompson Sampling Stacks for Memory Bounded Open-Loop Planning [9.805886870200872]
本稿では,SYMBOL(Stable Yet Memory bounded Open-Loop)計画を提案する。
SYMBOLはトンプソンサンプリングバンディットの適応的なスタックを維持しており、そのサイズは計画的地平線によって制限され、生成モデルを超えた事前のドメイン知識なしに、基礎領域に従って自動的に適応することができる。
論文 参考訳(メタデータ) (2019-07-11T09:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。