Fugu-MT 論文翻訳(概要): Futureproof Static Memory Planning

論文の概要: Futureproof Static Memory Planning

arxiv url: http://arxiv.org/abs/2504.04874v1
Date: Mon, 07 Apr 2025 09:28:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-15 20:40:23.83038
Title: Futureproof Static Memory Planning
Title（参考訳）: 将来的な静的記憶計画
Authors: Christos Lamprakos, Panagiotis Xanthopoulos, Manolis Katsaragakis, Sotirios Xydis, Dimitrios Soudris, Francky Catthoor,
Abstract要約: ディープニューラルネットワークの静的アーキテクチャと組み合わせた"AIメモリウォール"は、動的ストレージ割り当てへの関心を再燃させた。本稿では,100万インスタンスを対象とした低フラグメンテーション,高性能DSA実装であるIdeallocを提案する。
参考スコア（独自算出の注目度）: 7.031511274524772
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The NP-complete combinatorial optimization task of assigning offsets to a set of buffers with known sizes and lifetimes so as to minimize total memory usage is called dynamic storage allocation (DSA). Existing DSA implementations bypass the theoretical state-of-the-art algorithms in favor of either fast but wasteful heuristics, or memory-efficient approaches that do not scale beyond one thousand buffers. The "AI memory wall", combined with deep neural networks' static architecture, has reignited interest in DSA. We present idealloc, a low-fragmentation, high-performance DSA implementation designed for million-buffer instances. Evaluated on a novel suite of particularly hard benchmarks from several domains, idealloc ranks first against four production implementations in terms of a joint effectiveness/robustness criterion.
Abstract（参考訳）: NP完全組合せ最適化タスクは、メモリ使用量を最小限に抑えるために、既知のサイズと寿命を持つバッファのセットにオフセットを割り当てるタスクを動的ストレージアロケーション(DSA)と呼ぶ。既存のDSA実装は、高速だが無駄なヒューリスティックや1000バッファを超えないメモリ効率のアプローチを好んで、理論上の最先端アルゴリズムを回避している。 AIメモリウォールとディープニューラルネットワークの静的アーキテクチャが組み合わさって、DSAへの関心が再燃している。本稿では,100万インスタンスを対象とした低フラグメンテーション,高性能DSA実装であるIdeallocを提案する。いくつかの領域の特にハードなベンチマークからなる新しいスイートで評価され、イデオロクは、共同効率/ロバスト性基準の観点から、まず4つのプロダクション実装に対してランク付けされる。

関連論文リスト

AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning [23.59600455731982]
混合量子化微調整プロセスにおいて,各レイヤのビット幅とLoRAランク設定を同時に最適化する共同最適化フレームワークを提案する。実験によると、AutoQRAは、均一な4ビットメソッドに匹敵するメモリフットプリントで、完全精度の微調整に近いパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-02-25T07:18:08Z)
Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文参考訳（メタデータ） (2025-11-14T06:27:58Z)
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文参考訳（メタデータ） (2025-07-10T18:04:52Z)
Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文参考訳（メタデータ） (2025-06-03T06:02:50Z)
FLAMES: A Hybrid Spiking-State Space Model for Adaptive Memory Retention in Event-Based Learning [16.60622265961373]
FLAMESは構造化状態空間力学とイベント駆動型計算を統合するハイブリッドフレームワークである。ニューロモルフィックコンピューティングと構造化シーケンスモデリングをブリッジすることで、FLAMESはイベント駆動システムにおいてスケーラブルな長距離推論を可能にする。
論文参考訳（メタデータ） (2025-04-02T00:08:19Z)
A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models [22.725326215887435]
本稿では,事前学習および微調整を行う大規模言語モデルのためのランダム化部分空間最適化フレームワークを提案する。提案手法は,高次元学習問題を一連の低次元サブプロブレムに分解する。この構造的次元減少により,アクティベーションと状態の両方のメモリ使用量を同時に削減できる。
論文参考訳（メタデータ） (2025-02-11T03:32:10Z)
Efficient Adaptive Optimization via Subset-Norm and Subspace-Momentum: Fast, Memory-Reduced Training with Convergence Guarantees [5.399838579600896]
本稿では,メモリ最適化のための2つの補完手法を提案する。 1つのテクニックであるSubset-Normは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。別の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
論文参考訳（メタデータ） (2024-11-11T16:48:07Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文参考訳（メタデータ） (2022-04-23T02:45:55Z)
Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文参考訳（メタデータ） (2021-06-09T16:50:57Z)
Semantically Constrained Memory Allocation (SCMA) for Embedding in Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文参考訳（メタデータ） (2021-02-24T19:55:49Z)
Adaptive Thompson Sampling Stacks for Memory Bounded Open-Loop Planning [9.805886870200872]
本稿では,SYMBOL(Stable Yet Memory bounded Open-Loop)計画を提案する。 SYMBOLはトンプソンサンプリングバンディットの適応的なスタックを維持しており、そのサイズは計画的地平線によって制限され、生成モデルを超えた事前のドメイン知識なしに、基礎領域に従って自動的に適応することができる。
論文参考訳（メタデータ） (2019-07-11T09:42:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。