論文の概要: QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals
- arxiv url: http://arxiv.org/abs/2602.02581v1
- Date: Sat, 31 Jan 2026 16:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.950681
- Title: QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals
- Title(参考訳): QuantLRM:微細チューニング信号による大型共振モデルの量子化
- Authors: Nan Zhang, Eugene Kwek, Yusen Zhang, Muyu Pan, Suhang Wang, Prasenjit Mitra, Rui Zhang,
- Abstract要約: 推論インセンティブ付き微調整における重み更新の規模は,大規模推論モデルの定量化に有用な信号となるかを検討する。
我々は、微調整信号によるLRMの重み量子化のためのQuantLRMを紹介する。
- 参考スコア(独自算出の注目度): 36.20550322310323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight-only quantization is important for compressing Large Language Models (LLMs). Inspired by the spirit of classical magnitude pruning, we study whether the magnitude of weight updates during reasoning-incentivized fine-tuning can provide valuable signals for quantizing Large Reasoning Models (LRMs). We hypothesize that the smallest and largest weight updates during fine-tuning are more important than those of intermediate magnitude, a phenomenon we term "protecting both ends". Upon hypothesis validation, we introduce QuantLRM, which stands for weight quantization of LRMs via fine-tuning signals. We fit simple restricted quadratic functions on weight updates to protect both ends. By multiplying the average quadratic values with the count of zero weight updates of channels, we compute channel importance that is more effective than using activation or second-order information. We run QuantLRM to quantize various fine-tuned models (including supervised, direct preference optimization, and reinforcement learning fine-tuning) over four reasoning benchmarks (AIME-120, FOLIO, temporal sequences, and GPQA-Diamond) and empirically find that QuantLRM delivers a consistent improvement for LRMs quantization, with an average improvement of 6.55% on a reinforcement learning fine-tuned model. Also supporting non-fine-tuned LRMs, QuantLRM gathers effective signals via pseudo-fine-tuning, which greatly enhances its applicability.
- Abstract(参考訳): 重みのみの量子化は、Large Language Models (LLM) の圧縮に重要である。
古典的等級プルーニングの精神に触発されて、推論インセンティブ付き微調整における重量更新の程度が、大共振モデル(LRM)の定量化に有用な信号を与えるかどうかを考察する。
微調整中の最小かつ最大の重量更新は、中間等級よりも重要であり、これは「両端を保護する」現象である。
仮説検証の際には、微調整信号によるLRMの重み量子化を表すQuantLRMを導入する。
両端を保護するために、単純な制限付き二次関数を重み更新に適合させる。
平均2次値をチャネルのゼロウェイト更新数に乗じることで、アクティベーションや2次情報よりも効果的にチャネルの重要度を計算する。
我々はQuantLRMを使用して4つの推論ベンチマーク(AIME-120、FOLIO、時間シーケンス、GPQA-Diamond)上で様々な微調整モデル(教師付き、直接選好最適化、強化学習微調整を含む)を定量化し、QuantLRMがLRMの量子化に一貫した改善をもたらすことを実証的に見出した。
また、Non-fine-tuned LRMもサポートしており、QuantLRMは擬似微細チューニングを通じて効果的な信号を収集し、適用性を大幅に向上させる。
関連論文リスト
- Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling [34.20750590384272]
プロセス報酬モデル(PRM)は、テストタイムスケーリング(TTS)の基礎である。
PRMは、大きな言語モデル(LLM)から最適な応答を検証し、選択するために設計されている。
論文 参考訳(メタデータ) (2025-10-15T09:08:51Z) - CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling [60.55856973678002]
大規模推論モデル (LRM) は、複雑な多段階推論において強力な機能を示した。
既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンをうまく利用できなかった。
我々は、最適化モデリングタスクのためのネイティブ推論モード内でのLEMを段階的に洗練するフレームワークである textbfCALM を提案する。
論文 参考訳(メタデータ) (2025-10-05T13:38:31Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前学習モデルは、しばしば最先端のパフォーマンスをもたらすが、全てのパラメータを更新する際に計算コストがかかる。
本稿では,軽量ニューラルネットワークを用いた非線形PEFT手法NEATを提案し,事前学習した重みの非線形変換を学習する。
理論解析により, NEATは等価な表現性を維持しつつ, LoRA よりも高い効率を達成することが示された。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。