論文の概要: Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning
- arxiv url: http://arxiv.org/abs/2505.14582v1
- Date: Tue, 20 May 2025 16:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.58157
- Title: Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning
- Title(参考訳): プルーニングは推論を改善するか?
- Authors: Shangziqi Zhao, Jiahao Yuan, Guisong Yang, Usman Naseem,
- Abstract要約: Prune-on-LogicはLong-CoTをロジックグラフに変換するフレームワークである。
プルーニング検証のステップが一貫した精度向上をもたらすことが判明した。
- 参考スコア(独自算出の注目度): 5.509438832617275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long chain-of-thought (Long-CoT) reasoning improves accuracy in LLMs, yet its verbose, self-reflective style often hinders effective distillation into small language models (SLMs). We revisit Long-CoT compression through the lens of capability alignment and ask: Can pruning improve reasoning? We propose Prune-on-Logic, a structure-aware framework that transforms Long-CoT into logic graphs and selectively prunes low-utility reasoning steps under self-verification constraints. Through systematic analysis across three pruning strategies -- targeting entire chains, core reasoning, and verification -- we find that pruning verification steps yields consistent accuracy gains while reducing inference cost, outperforming token-level baselines and uncompressed fine-tuning. In contrast, pruning reasoning or all-chain steps degrades performance, revealing that small models benefit not from shorter CoTs, but from semantically leaner ones. Our findings highlight pruning as a structural optimization strategy for aligning CoT reasoning with SLM capacity.
- Abstract(参考訳): ロングチェーン・オブ・ソート(Long-CoT)推論はLLMの精度を向上させるが、冗長で自己反射的なスタイルは、しばしば小さな言語モデル(SLM)への効果的な蒸留を妨げる。
我々は、機能アライメントのレンズを通してLong-CoT圧縮を再考し、質問する: プルーニングは推論を改善することができるか?
本稿では,Long-CoTを論理グラフに変換し,自己検証制約の下で低ユーティリティ推論ステップを選択的にプルーする構造対応フレームワークPrune-on-Logicを提案する。
3つのプルーニング戦略(チェーン全体、コア推論、検証など)を体系的に分析することで、プルーニング検証のステップは、推論コストを削減し、トークンレベルのベースラインを上回り、未圧縮の微調整を実現する。
対照的に、プルーニング推論やオールチェーンステップはパフォーマンスを低下させ、小さなモデルは短いCoTからではなく、セマンティックによりリーンなものから利益を得ることを明らかにした。
本研究は,COT推論とSLM容量の整合化のための構造最適化戦略として,プルーニングに注目した。
関連論文リスト
- Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately [29.018731931275138]
大規模言語モデル(LLM)は、所定の要求に応答するChain-of-Thought推論を生成することで、より優れた機能を得ることができる。
しかし,2つのスケーリング次元を取り入れた場合,システム効率は2つの理由から著しく低下する。
本稿では,効率的なLLM推論のためのサービスフレームワークであるSARTについて述べる。
論文 参考訳(メタデータ) (2025-05-19T16:34:56Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - CoT-Valve: Length-Compressible Chain-of-Thought Tuning [50.196317781229496]
我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。
我々は,CoT-Valveがチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-13T18:52:36Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.147529569445396]
Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。
ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。
これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
論文 参考訳(メタデータ) (2024-06-13T14:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。