論文の概要: Double-Checker: Enhancing Reasoning of Slow-Thinking LLMs via Self-Critical Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.21285v1
- Date: Thu, 26 Jun 2025 14:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.116887
- Title: Double-Checker: Enhancing Reasoning of Slow-Thinking LLMs via Self-Critical Fine-Tuning
- Title(参考訳): ダブルチェッカー:自己臨界微調整によるスローシンキングLDMの共振強化
- Authors: Xin Xu, Tianhao Chen, Fan Zhang, Wanlong Liu, Pengxiang Li, Ajay Kumar Jaiswal, Yuchen Yan, Jishan Hu, Yang Wang, Hao Chen, Shiwei Liu, Shizhe Diao, Can Yang, Lu Yin,
- Abstract要約: Double-Checkerは、ゆっくりと考えられた大きな言語モデルの推論能力を高めるために設計された、原則化されたフレームワークである。
総合的な推論ベンチマークを用いてDouble-Checkerの有効性を検証する。
- 参考スコア(独自算出の注目度): 37.36898748241072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While slow-thinking large language models (LLMs) exhibit reflection-like reasoning, commonly referred to as the "aha moment:, their ability to generate informative critiques and refine prior solutions remains limited. In this paper, we introduce Double-Checker, a principled framework designed to enhance the reasoning capabilities of slow-thinking LLMs by fostering explicit self-critique and iterative refinement of their previous solutions. By fine-tuning on our curated 1,730 self-critical instances, Double-Checker empowers long-CoT LLMs to iteratively critique and refine their outputs during inference until they evaluate their solutions as correct under self-generated critiques. We validate the efficacy of Double-Checker across a comprehensive suite of reasoning benchmarks, demonstrating that iterative self-critique significantly enhances the reasoning capabilities of long-CoT LLMs. Notably, our Double-Checker increases the pass@1 performance on challenging AIME benchmarks from 4.4% to 18.2% compared to the original long-CoT LLMs. These results highlight a promising direction for developing more trustworthy and effective LLMs capable of structured self-critique.
- Abstract(参考訳): ゆっくり考えられた大きな言語モデル(LLM)は、リフレクションのような推論(一般に「アハモーメント(aha moment:)」と呼ばれる)を示すが、情報的批判を生成し、事前解を洗練する能力は限られている。
本稿では,従来のソリューションの明示的な自己批判と反復的改善を育成することにより,LLMの推論能力を高めるための原則的フレームワークであるDouble-Checkerを紹介する。
1,730個の自己クリティカルなインスタンスを微調整することで、Double-CheckerはロングCoT LLMに対して、自己生成的批判の下でソリューションを正しいものと評価するまで、推論中のアウトプットを反復的に批評し、洗練する権限を与えます。
提案手法の有効性を総合的な推論ベンチマークで検証し,反復的自己批判が長いCoT LLMの推論能力を大幅に向上させることを示した。
特に、当社のDouble-Checkerは、従来のLong-CoT LLMと比較して、挑戦的なAIMEベンチマークのパス@1パフォーマンスを4.4%から18.2%に向上させています。
これらの結果は、自己批判を構造化できる信頼性が高く効果的なLCMを開発する上で有望な方向性を示すものである。
関連論文リスト
- DeepCritic: Deliberate Critique with Large Language Models [77.5516314477878]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。
Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文 参考訳(メタデータ) (2025-05-01T17:03:17Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。