論文の概要: STOP: Structured On-Policy Pruning of Long-Form Reasoning in Low-Data Regimes
- arxiv url: http://arxiv.org/abs/2605.13165v1
- Date: Wed, 13 May 2026 08:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.91268
- Title: STOP: Structured On-Policy Pruning of Long-Form Reasoning in Low-Data Regimes
- Title(参考訳): STOP:低データレジームにおける長期推論の構造化オンポリシィプルーニング
- Authors: Chenjun Xu, Zhennan Zhou, Zhan Su, Bill Howe, Lucy Lu Wang, Bingbing Wen,
- Abstract要約: ロングチェーン・オブ・シークレット (Long CoT) 推論は多段階問題のパフォーマンスを向上させるが、過度な考えも引き起こす。
長文推論トレースを解析・解析するオンラインアルゴリズムSTOP(Structured On-policy Pruning)を提案する。
- 参考スコア(独自算出の注目度): 13.293115227628775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long chain-of-thought (Long CoT) reasoning improves performance on multi-step problems, but it also induces overthinking: models often generate low-yield reasoning that increases inference cost and latency. This inefficiency is especially problematic in low-data fine-tuning regimes, where real applications adapt reasoning models with limited supervision and cannot rely on large-scale teacher distillation or heavy test-time control. To address this, we propose STOP (Structured On-policy Pruning), an on-policy algorithm for analyzing and pruning long-form reasoning traces. STOP constructs self-distilled traces from the model. Then it maps each trace into a structured reasoning interface through node segmentation, taxonomy annotation, and reasoning-tree construction. On top of this interface, we introduce ECN (Earliest Correct Node), which retains the shortest prefix ending at the earliest node that both functions as an answering conclusion and yields the correct final answer, removing redundant post-solution reasoning while preserving semantic continuity. Experiments on DeepSeek-R1-Distill-Qwen-7B and DeepSeek-R1-Distill-LLaMA-3-8B across GSM8K, Math 500, and AIME 2024 show that STOP reduces generated tokens by 19.4-42.4% while largely preserving accuracy in low-data fine-tuning. Beyond efficiency, our analyses show that STOP induces much smaller distributional shift than teacher-guided pruning, improves the structural efficiency of generated reasoning, and reallocates reasoning effort away from redundant verification and backtracking toward more productive exploration.
- Abstract(参考訳): ロングチェーン・オブ・シークレット(Long CoT)推論は、マルチステップ問題のパフォーマンスを改善するが、過度な思考を引き起こす。
この非効率性は低データの微調整体制において特に問題であり、実際のアプリケーションは限定的な監督による推論モデルに適応し、大規模な教師の蒸留やテストタイムの過剰な制御に依存しない。
そこで本稿では,長文推論トレースを解析・解析するオンラインアルゴリズムSTOP(Structured On-policy Pruning)を提案する。
STOPはモデルから自己蒸留されたトレースを構成する。
次に、ノードのセグメンテーション、分類学アノテーション、推論木構築を通じて、各トレースを構造化された推論インターフェースにマッピングする。
このインターフェース上には,最短の接頭辞を最短のノードに保持するECN(Earliest Correct Node)を導入し,それぞれが回答の結論として機能し,適切な最終回答を出力し,意味的連続性を維持しながら冗長な解法推論を除去する。
DeepSeek-R1-Distill-Qwen-7BとDeepSeek-R1-Distill-LLaMA-3-8BをGSM8K、Math 500、AIME 2024で行った実験では、STOPは生成されたトークンを19.4-42.4%削減し、低データの微調整の精度を保った。
分析の結果,STOPは教師が指導するプルーニングよりも分布シフトをはるかに小さくし,生成した推論の構造的効率を向上し,冗長な検証やバックトラックから,より生産的な探索へと推し進める。
関連論文リスト
- Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。
本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文 参考訳(メタデータ) (2026-02-27T20:23:59Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - On the Bias of Next-Token Predictors Toward Systematically Inefficient Reasoning: A Shortest-Path Case Study [4.798155648915794]
大規模言語モデルにおける推論を改善するための2つの重要な要因について検討する。
我々は、カスタムトークン化器を用いて、質問-トレース-回答三重項に対してデコーダのみの変換器を訓練する。
同じトレーニングの予算で、非効率なトレースで訓練されたモデルは、目に見えないグラフよりも一般化される。
論文 参考訳(メタデータ) (2025-07-07T18:00:06Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。