論文の概要: Constraint-Rectified Training for Efficient Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2602.12526v1
- Date: Fri, 13 Feb 2026 02:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.810364
- Title: Constraint-Rectified Training for Efficient Chain-of-Thought
- Title(参考訳): 効率的なチェーン・オブ・サートのための制約付きトレーニング
- Authors: Qinhang Wu, Sen Lin, Ming Zhang, Yingbin Liang, Ness B. Shroff,
- Abstract要約: CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
- 参考スコア(独自算出の注目度): 60.52883907721588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) has significantly enhanced the reasoning capabilities of Large Language Models (LLMs), especially when combined with reinforcement learning (RL) based post-training methods. While longer reasoning traces can improve answer quality and unlock abilities such as self-correction, they also incur high inference costs and often introduce redundant steps, known as overthinking. Recent research seeks to develop efficient reasoning strategies that balance reasoning length and accuracy, either through length-aware reward design or prompt-based calibration. However, these heuristic-based approaches may suffer from severe accuracy drop and be very sensitive to hyperparameters. To address these problems, we introduce CRT (Constraint-Rectified Training), a principled post-training framework based on reference-guarded constrained optimization, yielding a more stable and interpretable formulation for efficient reasoning. CRT alternates between minimizing reasoning length and rectifying accuracy only when performance falls below the reference, enabling stable and effective pruning of redundant reasoning. We further extend CRT with a two-stage training scheme that first discovers the shortest reliable reasoning patterns and then refines accuracy under a learnt length budget, preventing the re-emergence of verbose CoT. Our comprehensive evaluation shows that this framework consistently reduces token usage while maintaining answer quality at a robust and reliable level. Further analysis reveals that CRT improves reasoning efficiency not only by shortening responses but also by reducing internal language redundancy, leading to a new evaluation metric. Moreover, CRT-based training naturally yields a sequence of intermediate checkpoints that span a spectrum of explanation lengths while preserving correctness, enabling fine-grained control over reasoning verbosity without retraining.
- Abstract(参考訳): CoT (Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を大幅に向上させ,特に強化学習 (RL) に基づく後学習法と組み合わせた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究では、推論長と精度のバランスをとる効率的な推論戦略を、長さ対応の報酬設計やプロンプトベースのキャリブレーションによって開発しようとしている。
しかし、これらのヒューリスティックに基づくアプローチは、高度の精度低下に悩まされ、ハイパーパラメーターに非常に敏感である。
これらの問題に対処するために、我々は基準付き制約付き最適化に基づく原則付き後学習フレームワークであるCRT(Constraint-Rectified Training)を導入し、効率的な推論のためのより安定かつ解釈可能な定式化を実現した。
CRTは、推論長の最小化と、性能が基準を下回る場合にのみ精度の修正を交互に行い、冗長な推論の安定かつ効果的なプルーニングを可能にする。
さらに,CRTを2段階のトレーニング手法で拡張し,まず最も信頼性の低い推論パターンを発見し,学習期間の予算で精度を向上し,冗長CoTの再帰を防止する。
我々の総合的な評価は、このフレームワークが堅牢で信頼性の高いレベルで応答品質を維持しながら、トークンの使用を一貫して削減していることを示している。
さらに分析した結果,CRTは応答を短縮するだけでなく,言語内部の冗長性を低減して推論効率を向上し,新たな評価基準が得られた。
さらに、CRTベースのトレーニングは、説明長のスペクトルにまたがる中間チェックポイントのシーケンスを自然に生成し、正確性を保ちながら、再訓練せずに動詞の推論をきめ細かな制御を可能にする。
関連論文リスト
- Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文 参考訳(メタデータ) (2025-07-06T11:21:47Z) - AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。
我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。
提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文 参考訳(メタデータ) (2025-06-25T06:29:18Z) - Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning [15.137717200618454]
Prune-on-LogicはLong-CoTを論理グラフに変換し、低ユーティリティ推論ステップを選択的にプルーするフレームワークである。
検証プルーニングはトークン使用率を低下させながら常に精度を向上するのに対し、推論や非識別プルーニングは性能を低下させる。
論文 参考訳(メタデータ) (2025-05-20T16:38:32Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。