Fugu-MT 論文翻訳(概要): Structured Reasoning for Large Language Models

論文の概要: Structured Reasoning for Large Language Models

arxiv url: http://arxiv.org/abs/2601.07180v1
Date: Mon, 12 Jan 2026 04:04:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-13 19:08:01.200227
Title: Structured Reasoning for Large Language Models
Title（参考訳）: 大規模言語モデルのための構造化推論
Authors: Jinyi Han, Zixiang Di, Zishang Jiang, Ying Liao, Jiaqing Liang, Yongqi Wang, Yanghua Xiao,
Abstract要約: 本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。 SCRは推論効率と自己検証を大幅に改善する。既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
参考スコア（独自算出の注目度）: 59.215789462977206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) achieve strong performance by generating long chains of thought, but longer traces always introduce redundant or ineffective reasoning steps. One typical behavior is that they often perform unnecessary verification and revisions even if they have reached the correct answers. This limitation stems from the unstructured nature of reasoning trajectories and the lack of targeted supervision for critical reasoning abilities. To address this, we propose Structured Reasoning (SCR), a framework that decouples reasoning trajectories into explicit, evaluable, and trainable components. We mainly implement SCR using a Generate-Verify-Revise paradigm. Specifically, we construct structured training data and apply Dynamic Termination Supervision to guide the model in deciding when to terminate reasoning. To avoid interference between learning signals for different reasoning abilities, we adopt a progressive two-stage reinforcement learning strategy: the first stage targets initial generation and self-verification, and the second stage focuses on revision. Extensive experiments on three backbone models show that SCR substantially improves reasoning efficiency and self-verification. Besides, compared with existing reasoning paradigms, it reduces output token length by up to 50%.
Abstract（参考訳）: 大規模言語モデル(LLM)は長い思考の連鎖を生成することで高い性能を達成するが、長いトレースは常に冗長または非効率な推論ステップを導入している。典型的な行動の1つは、たとえ正しい答えに達したとしても、不必要な検証と修正を行うことが多いことである。この制限は、推論軌跡の非構造的な性質と、批判的推論能力に対する目標監督の欠如に起因している。これを解決するために、我々は、推論軌道を明示的、評価可能、トレーニング可能なコンポーネントに分離するフレームワークであるStructured Reasoning (SCR)を提案する。主にGenerate-Verify-Reviseパラダイムを用いてSCRを実装します。具体的には、構造化されたトレーニングデータを構築し、動的終了スーパービジョンを適用して、推論をいつ終了するかを決定する。異なる推論能力の学習信号間の干渉を避けるため,第1段階は初期生成と自己検証を目標とし,第2段階は改訂に焦点を当てた2段階強化学習戦略を採用する。 3つのバックボーンモデルに対する大規模な実験により、SCRは推論効率と自己検証を大幅に改善することが示された。さらに、既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。

関連論文リスト

Draft-Thinking: Learning Efficient Reasoning in Long Chain-of-Thought LLMs [46.272771457924186]
我々は,まずモデルに,重要な推論ステップのみを保持する簡潔なテキストドラフト型推論構造を学習するよう誘導するtextbfDraft-Thinkingを提案する。実験により、ドラフトシンキングは推論性能を保ちながら推論予算を大幅に削減することが示された。
論文参考訳（メタデータ） (2026-02-28T09:57:52Z)
Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文参考訳（メタデータ） (2026-02-13T02:13:45Z)
Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。 ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。複数のベンチマーク実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2026-01-08T06:57:03Z)
ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。 DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文参考訳（メタデータ） (2025-06-23T16:20:44Z)
Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文参考訳（メタデータ） (2025-06-17T06:04:01Z)
Efficient Post-Training Refinement of Latent Reasoning in Large Language Models [22.878147805601706]
Chain-of-Thoughtのプロンプトは十分なトークンオーバーヘッドと固定された推論軌道に悩まされ、ステップワイズの改良が妨げられる。潜在推論の最近の進歩は、モデル潜在空間において内部推論プロセスを直接精製することによってこれらの制限に対処している。本稿では,2つの新しい戦略を用いて遅延推論軌道を洗練する軽量なポストトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T08:17:16Z)
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文参考訳（メタデータ） (2025-05-20T18:18:01Z)
When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [19.354141845315276]
連鎖推論は命令追従精度を著しく低下させる。これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文参考訳（メタデータ） (2025-05-16T16:36:00Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。