Fugu-MT 論文翻訳(概要): Double-Checker: Enhancing Reasoning of Slow-Thinking LLMs via Self-Critical Fine-Tuning

論文の概要: Double-Checker: Enhancing Reasoning of Slow-Thinking LLMs via Self-Critical Fine-Tuning

arxiv url: http://arxiv.org/abs/2506.21285v1
Date: Thu, 26 Jun 2025 14:05:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:10.116887
Title: Double-Checker: Enhancing Reasoning of Slow-Thinking LLMs via Self-Critical Fine-Tuning
Title（参考訳）: ダブルチェッカー:自己臨界微調整によるスローシンキングLDMの共振強化
Authors: Xin Xu, Tianhao Chen, Fan Zhang, Wanlong Liu, Pengxiang Li, Ajay Kumar Jaiswal, Yuchen Yan, Jishan Hu, Yang Wang, Hao Chen, Shiwei Liu, Shizhe Diao, Can Yang, Lu Yin,
Abstract要約: Double-Checkerは、ゆっくりと考えられた大きな言語モデルの推論能力を高めるために設計された、原則化されたフレームワークである。総合的な推論ベンチマークを用いてDouble-Checkerの有効性を検証する。
参考スコア（独自算出の注目度）: 37.36898748241072
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While slow-thinking large language models (LLMs) exhibit reflection-like reasoning, commonly referred to as the "aha moment:, their ability to generate informative critiques and refine prior solutions remains limited. In this paper, we introduce Double-Checker, a principled framework designed to enhance the reasoning capabilities of slow-thinking LLMs by fostering explicit self-critique and iterative refinement of their previous solutions. By fine-tuning on our curated 1,730 self-critical instances, Double-Checker empowers long-CoT LLMs to iteratively critique and refine their outputs during inference until they evaluate their solutions as correct under self-generated critiques. We validate the efficacy of Double-Checker across a comprehensive suite of reasoning benchmarks, demonstrating that iterative self-critique significantly enhances the reasoning capabilities of long-CoT LLMs. Notably, our Double-Checker increases the pass@1 performance on challenging AIME benchmarks from 4.4% to 18.2% compared to the original long-CoT LLMs. These results highlight a promising direction for developing more trustworthy and effective LLMs capable of structured self-critique.
Abstract（参考訳）: ゆっくり考えられた大きな言語モデル(LLM)は、リフレクションのような推論(一般に「アハモーメント(aha moment:)」と呼ばれる)を示すが、情報的批判を生成し、事前解を洗練する能力は限られている。本稿では,従来のソリューションの明示的な自己批判と反復的改善を育成することにより,LLMの推論能力を高めるための原則的フレームワークであるDouble-Checkerを紹介する。 1,730個の自己クリティカルなインスタンスを微調整することで、Double-CheckerはロングCoT LLMに対して、自己生成的批判の下でソリューションを正しいものと評価するまで、推論中のアウトプットを反復的に批評し、洗練する権限を与えます。提案手法の有効性を総合的な推論ベンチマークで検証し,反復的自己批判が長いCoT LLMの推論能力を大幅に向上させることを示した。特に、当社のDouble-Checkerは、従来のLong-CoT LLMと比較して、挑戦的なAIMEベンチマークのパス@1パフォーマンスを4.4%から18.2%に向上させています。これらの結果は、自己批判を構造化できる信頼性が高く効果的なLCMを開発する上で有望な方向性を示すものである。

論文の概要: Double-Checker: Enhancing Reasoning of Slow-Thinking LLMs via Self-Critical Fine-Tuning

関連論文リスト