論文の概要: Stepwise Think-Critique: A Unified Framework for Robust and Interpretable LLM Reasoning
- arxiv url: http://arxiv.org/abs/2512.15662v1
- Date: Wed, 17 Dec 2025 18:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.097764
- Title: Stepwise Think-Critique: A Unified Framework for Robust and Interpretable LLM Reasoning
- Title(参考訳): Stepwise Think-Critique:ロバストで解釈可能なLLM推論のための統一フレームワーク
- Authors: Jiaqi Xu, Cuiling Lan, Xuejin Chen, Yan LU,
- Abstract要約: 一つのモデル内の各ステップで推論と自己批判をインターリーブする統合フレームワークであるStepwise Think-Critiqueを提案する。
STCは、推論品質と自己評価を共同で最適化するために、推論報酬と批判一貫性報酬を組み合わせたハイブリッド強化学習目標を用いて訓練される。
- 参考スコア(独自算出の注目度): 47.867294403474176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human beings solve complex problems through critical thinking, where reasoning and evaluation are intertwined to converge toward correct solutions. However, most existing large language models (LLMs) decouple reasoning from verification: they either generate reasoning without explicit self-checking or rely on external verifiers to detect errors post hoc. The former lacks immediate feedback, while the latter increases system complexity and hinders synchronized learning. Motivated by human critical thinking, we propose Stepwise Think-Critique (STC), a unified framework that interleaves reasoning and self-critique at each step within a single model. STC is trained with a hybrid reinforcement learning objective combining reasoning rewards and critique-consistency rewards to jointly optimize reasoning quality and self-evaluation. Experiments on mathematical reasoning benchmarks show that STC demonstrates strong critic-thinking capabilities and produces more interpretable reasoning traces, representing a step toward LLMs with built-in critical thinking.
- Abstract(参考訳): 人間は批判的思考を通じて複雑な問題を解き、推論と評価は正しい解へと収束する。
しかし、ほとんどの既存の大規模言語モデル(LLM)は、推論を検証から切り離している。
前者は即時フィードバックを欠くが、後者はシステムの複雑さを高め、同期学習を妨げる。
人間の批判的思考に動機づけられた我々は、一つのモデル内の各ステップにおける推論と自己批判をインターリーブする統合されたフレームワークであるStepwise Think-Critique (STC)を提案する。
STCは、推論品質と自己評価を共同で最適化するために、推論報酬と批判一貫性報酬を組み合わせたハイブリッド強化学習目標を用いて訓練される。
数学的推論ベンチマークの実験では、STCは強い批判的思考能力を示し、より解釈可能な推論トレースを生成し、批判的思考を組み込んだLCMへの一歩を示している。
関連論文リスト
- STaR: Towards Cognitive Table Reasoning via Slow-Thinking Large Language Models [12.745473719032026]
本稿では、認知テーブル推論を実現するための新しいフレームワークSTaR(slow-thinking for table reasoning)を提案する。
STaRはステップバイステップ思考と不確実性認識推論を明示的にモデル化する。
ベンチマーク実験により、STaRは優れた性能を示し、推論安定性が向上した。
論文 参考訳(メタデータ) (2025-11-14T12:34:17Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文 参考訳(メタデータ) (2024-03-28T02:12:49Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。