論文の概要: Reasoning Models Can be Accurately Pruned Via Chain-of-Thought Reconstruction
- arxiv url: http://arxiv.org/abs/2509.12464v1
- Date: Mon, 15 Sep 2025 21:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.773247
- Title: Reasoning Models Can be Accurately Pruned Via Chain-of-Thought Reconstruction
- Title(参考訳): 推論モデルの精度は, チェーン・オブ・サート・リコンストラクションの精度が向上する
- Authors: Ryan Lucas, Kayhan Behdin, Zhipeng Wang, Qingquan Song, Shao Tang, Rahul Mazumder,
- Abstract要約: DeepSeek-R1のような推論言語モデルは、推論時間の間に長い連鎖トレースを生成する。
ニューラルネットワークプルーニングのような圧縮手法を用いることで、典型的な言語モデリングタスクよりも大きな性能損失が生じることを示す。
プルーニング中に入力からアクティベーションとモデルのオン・プライシ・チェーン・オブ・プリートトレースを共同で再構築する。
- 参考スコア(独自算出の注目度): 22.464365371107714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning language models such as DeepSeek-R1 produce long chain-of-thought traces during inference time which make them costly to deploy at scale. We show that using compression techniques such as neural network pruning produces greater performance loss than in typical language modeling tasks, and in some cases can make the model slower since they cause the model to produce more thinking tokens but with worse performance. We show that this is partly due to the fact that standard LLM pruning methods often focus on input reconstruction, whereas reasoning is a decode-dominated task. We introduce a simple, drop-in fix: during pruning we jointly reconstruct activations from the input and the model's on-policy chain-of-thought traces. This "Reasoning-Aware Compression" (RAC) integrates seamlessly into existing pruning workflows such as SparseGPT, and boosts their performance significantly. Code reproducing the results in the paper can be found at: https://github.com/RyanLucas3/RAC
- Abstract(参考訳): DeepSeek-R1のような推論言語モデルは、推論時間の間に長い連鎖トレースを生成し、大規模にデプロイするのにコストがかかる。
ニューラルネットワークプルーニングのような圧縮手法を用いることで、典型的な言語モデリングタスクよりも性能が低下することが示され、場合によってはモデルがより思考トークンを生成するが、パフォーマンスが悪くなるため、モデルを遅くすることができる。
これは、標準的なLCMプルーニング手法が入力再構成に重点を置いているのに対し、推論はデコード優先のタスクであるという事実によるものである。
プルーニング中に入力からアクティベーションとモデルのオン・プライシ・チェーン・オブ・プリートトレースを共同で再構築する。
このRAC(Reasoning-Aware Compression)は、SparseGPTなどの既存のプルーニングワークフローにシームレスに統合され、パフォーマンスが大幅に向上する。
論文の結果を再現するコードは、https://github.com/RyanLucas3/RACにある。
関連論文リスト
- Gradually Compacting Large Language Models for Reasoning Like a Boiling Frog [72.4168434368873]
大きな言語モデル(LLM)は印象的な推論能力を示しているが、その相当なサイズは、しばしばかなりの計算資源を必要とする。
圧縮過程を細かな繰り返しに分割する段階的圧縮法を提案する。
この「沸騰するカエル」効果の反復的なアプローチは、急激な性能損失を伴わずに、モデルを段階的に圧縮することができる。
論文 参考訳(メタデータ) (2026-02-04T06:56:52Z) - From LLMs to LRMs: Rethinking Pruning for Reasoning-Centric Models [17.998434546981738]
大規模言語モデル(LLM)はデプロイにますますコストがかかり、モデルプルーニングに関する広範な研究を動機付けている。
命令フォロー(textbfLLM-instruct$)モデルと推論強化(textbfLLM-think$)モデルの両方に対するプルーニングの制御的研究を行う。
我々は,分類,生成,推論にまたがる17のタスクに対して,静的深さプルーニング,静的幅プルーニング,動的プルーニングを評価した。
論文 参考訳(メタデータ) (2026-01-26T03:01:39Z) - Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning [61.380634253724594]
次トーケン予測に基づく大規模自己回帰モデルの構築と強化学習(RL)による微調整
自己回帰モデルの内部表現を動作させ,探索することにより,この問題を克服できることを示す。
論文 参考訳(メタデータ) (2025-12-23T18:51:50Z) - C-SWAP: Explainability-Aware Structured Pruning for Efficient Neural Networks Compression [4.10373648742522]
プルーニング(英: Pruning)は、モデル構造におけるスパーシティを促進する技術である。
本稿では,説明可能な深層学習に依存する新しい一発プルーニングフレームワークを提案する。
提案手法はモデルサイズを大幅に削減し,性能への影響を最小限に抑え,微調整を不要とした。
論文 参考訳(メタデータ) (2025-10-21T13:40:11Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Attribution-guided Pruning for Compression, Circuit Discovery, and Targeted Correction in LLMs [15.23174472320989]
大規模言語モデル(LLM)は多くの現代のAIアプリケーションの中心である。
eXplainable AI(XAI)の最近の研究は、解釈可能性がモデル圧縮を可能にすることを示唆している。
論文 参考訳(メタデータ) (2025-06-16T17:38:36Z) - RL-Pruner: Structured Pruning Using Reinforcement Learning for CNN Compression and Acceleration [0.0]
RL-Prunerを提案する。このRL-Prunerは、強化学習を用いて最適プルーニング分布を学習する。
RL-Prunerは、モデル固有のプルーニング実装を必要とせずに、入力モデル内のフィルタ間の依存関係を自動的に抽出し、プルーニングを実行する。
論文 参考訳(メタデータ) (2024-11-10T13:35:10Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - A Fair Loss Function for Network Pruning [70.35230425589592]
本稿では, 刈り込み時のバイアスの抑制に使用できる簡易な改良型クロスエントロピー損失関数である, 性能重み付き損失関数を提案する。
CelebA、Fitzpatrick17k、CIFAR-10データセットを用いた実験は、提案手法が単純で効果的なツールであることを実証している。
論文 参考訳(メタデータ) (2022-11-18T15:17:28Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。