論文の概要: Structured Reasoning for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.07180v1
- Date: Mon, 12 Jan 2026 04:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.200227
- Title: Structured Reasoning for Large Language Models
- Title(参考訳): 大規模言語モデルのための構造化推論
- Authors: Jinyi Han, Zixiang Di, Zishang Jiang, Ying Liao, Jiaqing Liang, Yongqi Wang, Yanghua Xiao,
- Abstract要約: 本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
- 参考スコア(独自算出の注目度): 59.215789462977206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve strong performance by generating long chains of thought, but longer traces always introduce redundant or ineffective reasoning steps. One typical behavior is that they often perform unnecessary verification and revisions even if they have reached the correct answers. This limitation stems from the unstructured nature of reasoning trajectories and the lack of targeted supervision for critical reasoning abilities. To address this, we propose Structured Reasoning (SCR), a framework that decouples reasoning trajectories into explicit, evaluable, and trainable components. We mainly implement SCR using a Generate-Verify-Revise paradigm. Specifically, we construct structured training data and apply Dynamic Termination Supervision to guide the model in deciding when to terminate reasoning. To avoid interference between learning signals for different reasoning abilities, we adopt a progressive two-stage reinforcement learning strategy: the first stage targets initial generation and self-verification, and the second stage focuses on revision. Extensive experiments on three backbone models show that SCR substantially improves reasoning efficiency and self-verification. Besides, compared with existing reasoning paradigms, it reduces output token length by up to 50%.
- Abstract(参考訳): 大規模言語モデル(LLM)は長い思考の連鎖を生成することで高い性能を達成するが、長いトレースは常に冗長または非効率な推論ステップを導入している。
典型的な行動の1つは、たとえ正しい答えに達したとしても、不必要な検証と修正を行うことが多いことである。
この制限は、推論軌跡の非構造的な性質と、批判的推論能力に対する目標監督の欠如に起因している。
これを解決するために、我々は、推論軌道を明示的、評価可能、トレーニング可能なコンポーネントに分離するフレームワークであるStructured Reasoning (SCR)を提案する。
主にGenerate-Verify-Reviseパラダイムを用いてSCRを実装します。
具体的には、構造化されたトレーニングデータを構築し、動的終了スーパービジョンを適用して、推論をいつ終了するかを決定する。
異なる推論能力の学習信号間の干渉を避けるため,第1段階は初期生成と自己検証を目標とし,第2段階は改訂に焦点を当てた2段階強化学習戦略を採用する。
3つのバックボーンモデルに対する大規模な実験により、SCRは推論効率と自己検証を大幅に改善することが示された。
さらに、既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
関連論文リスト
- ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [19.354141845315276]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。