論文の概要: Not All Bits Are Equal: Scale-Dependent Memory Optimization Strategies for Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.10964v1
- Date: Mon, 13 Oct 2025 03:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.176021
- Title: Not All Bits Are Equal: Scale-Dependent Memory Optimization Strategies for Reasoning Models
- Title(参考訳): すべてのビットが等しくなるわけではない: 共振モデルのためのスケール依存メモリ最適化戦略
- Authors: Junhyuck Kim, Ethan Ewer, Taehong Moon, Jongho Park, Dimitris Papailiopoulos,
- Abstract要約: 4ビット量子化は、非推論モデルとスケールにわたるゼロショットタスクのメモリ最適選択として登場した。
モデルサイズではなくKVキャッシュがメモリを支配できるような推論モデルでは,この万能処方は失敗することを示す。
8ビットの4Bパラメータ未満の有効サイズを持つモデルでは、より長い生成ではなく、メモリをより多くの重みに割り当てることで、精度が向上する。
- 参考スコア(独自算出の注目度): 10.604862875916103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While 4-bit quantization has emerged as a memory-optimal choice for non-reasoning models and zero-shot tasks across scales, we show that this universal prescription fails for reasoning models, where the KV cache rather than model size can dominate memory. Through systematic experiments across 1,700 inference scenarios on AIME25 and GPQA-Diamond, we find a scale-dependent trade-off: models with an effective size below 8-bit 4B parameters achieve better accuracy by allocating memory to more weights rather than longer generation, while larger models achieve better accuracy by allocating memory to longer generations. This scale threshold also determines when parallel scaling becomes memory-efficient and whether KV cache eviction outperforms KV quantization. Our findings show that memory optimization for LLMs cannot be scale-agnostic, while providing principled guidelines: for small reasoning models, prioritize model capacity over test-time compute, while for larger ones, maximize test-time compute. Our results suggest that optimizing reasoning models for deployment requires fundamentally different strategies from those established for non-reasoning models.
- Abstract(参考訳): 4ビット量子化は,非推論モデルとゼロショットタスクのメモリ最適選択として現れてきたが,モデルサイズではなくKVキャッシュがメモリを支配的とする推論モデルでは,この普遍的処方は失敗することを示した。
AIME25とGPQA-Diamondの1,700の推論シナリオの体系的な実験により、スケール依存のトレードオフが見つかる: 8ビットの4Bパラメータ未満の有効サイズを持つモデルは、より長い世代にメモリを割り当てることでより正確な精度を得る。
このスケール閾値は、並列スケーリングがメモリ効率になるタイミングと、KVキャッシュ消去がKV量子化より優れているかどうかも決定する。
この結果から,LLMのメモリ最適化は,小規模推論モデルではテスト時間計算よりもモデルキャパシティを優先し,大規模処理ではテスト時間計算を最大化するという,原則的ガイドラインを提供する一方で,スケールに依存しないことが示唆された。
この結果から, 配置のための推論モデルの最適化には, 非推論モデルで確立した手法と根本的に異なる戦略が必要であることが示唆された。
関連論文リスト
- Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。
解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。
この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文 参考訳(メタデータ) (2025-08-20T17:54:21Z) - Low-Resolution Neural Networks [0.552480439325792]
本研究では,パラメータビット精度がモデル性能に与える影響を,標準32ビットモデルと比較して検討した。
分析されたモデルには、完全に接続された層、畳み込み層、トランスフォーマーブロックがある。
メモリ要求の低減と計算効率の向上により、最適化されたニューラルネットワークモデルに新たな時代がもたらされることが示唆されている。
論文 参考訳(メタデータ) (2025-02-12T21:19:28Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - Quantifying the Capabilities of LLMs across Scale and Precision [12.879551933541345]
本研究では,モデルスケールと量子化がインストラクションモデルの性能に及ぼす影響について検討する。
より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、4ビット量子化においても高い精度を維持することができることを示す。
論文 参考訳(メタデータ) (2024-05-06T03:42:34Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。