論文の概要: Reasoning Models Can be Accurately Pruned Via Chain-of-Thought Reconstruction
- arxiv url: http://arxiv.org/abs/2509.12464v1
- Date: Mon, 15 Sep 2025 21:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.773247
- Title: Reasoning Models Can be Accurately Pruned Via Chain-of-Thought Reconstruction
- Title(参考訳): 推論モデルの精度は, チェーン・オブ・サート・リコンストラクションの精度が向上する
- Authors: Ryan Lucas, Kayhan Behdin, Zhipeng Wang, Qingquan Song, Shao Tang, Rahul Mazumder,
- Abstract要約: DeepSeek-R1のような推論言語モデルは、推論時間の間に長い連鎖トレースを生成する。
ニューラルネットワークプルーニングのような圧縮手法を用いることで、典型的な言語モデリングタスクよりも大きな性能損失が生じることを示す。
プルーニング中に入力からアクティベーションとモデルのオン・プライシ・チェーン・オブ・プリートトレースを共同で再構築する。
- 参考スコア(独自算出の注目度): 22.464365371107714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning language models such as DeepSeek-R1 produce long chain-of-thought traces during inference time which make them costly to deploy at scale. We show that using compression techniques such as neural network pruning produces greater performance loss than in typical language modeling tasks, and in some cases can make the model slower since they cause the model to produce more thinking tokens but with worse performance. We show that this is partly due to the fact that standard LLM pruning methods often focus on input reconstruction, whereas reasoning is a decode-dominated task. We introduce a simple, drop-in fix: during pruning we jointly reconstruct activations from the input and the model's on-policy chain-of-thought traces. This "Reasoning-Aware Compression" (RAC) integrates seamlessly into existing pruning workflows such as SparseGPT, and boosts their performance significantly. Code reproducing the results in the paper can be found at: https://github.com/RyanLucas3/RAC
- Abstract(参考訳): DeepSeek-R1のような推論言語モデルは、推論時間の間に長い連鎖トレースを生成し、大規模にデプロイするのにコストがかかる。
ニューラルネットワークプルーニングのような圧縮手法を用いることで、典型的な言語モデリングタスクよりも性能が低下することが示され、場合によってはモデルがより思考トークンを生成するが、パフォーマンスが悪くなるため、モデルを遅くすることができる。
これは、標準的なLCMプルーニング手法が入力再構成に重点を置いているのに対し、推論はデコード優先のタスクであるという事実によるものである。
プルーニング中に入力からアクティベーションとモデルのオン・プライシ・チェーン・オブ・プリートトレースを共同で再構築する。
このRAC(Reasoning-Aware Compression)は、SparseGPTなどの既存のプルーニングワークフローにシームレスに統合され、パフォーマンスが大幅に向上する。
論文の結果を再現するコードは、https://github.com/RyanLucas3/RACにある。
関連論文リスト
- R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Attribution-guided Pruning for Compression, Circuit Discovery, and Targeted Correction in LLMs [15.23174472320989]
大規模言語モデル(LLM)は多くの現代のAIアプリケーションの中心である。
eXplainable AI(XAI)の最近の研究は、解釈可能性がモデル圧縮を可能にすることを示唆している。
論文 参考訳(メタデータ) (2025-06-16T17:38:36Z) - RL-Pruner: Structured Pruning Using Reinforcement Learning for CNN Compression and Acceleration [0.0]
RL-Prunerを提案する。このRL-Prunerは、強化学習を用いて最適プルーニング分布を学習する。
RL-Prunerは、モデル固有のプルーニング実装を必要とせずに、入力モデル内のフィルタ間の依存関係を自動的に抽出し、プルーニングを実行する。
論文 参考訳(メタデータ) (2024-11-10T13:35:10Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。