論文の概要: DeepCritic: Deliberate Critique with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.00662v1
- Date: Thu, 01 May 2025 17:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.379094
- Title: DeepCritic: Deliberate Critique with Large Language Models
- Title(参考訳): DeepCritic: 大規模言語モデルによるDeliberate Critique
- Authors: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen,
- Abstract要約: 我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。
Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
- 参考スコア(独自算出の注目度): 77.5516314477878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are rapidly evolving, providing accurate feedback and scalable oversight on their outputs becomes an urgent and critical problem. Leveraging LLMs as critique models to achieve automated supervision is a promising solution. In this work, we focus on studying and enhancing the math critique ability of LLMs. Current LLM critics provide critiques that are too shallow and superficial on each step, leading to low judgment accuracy and struggling to offer sufficient feedback for the LLM generator to correct mistakes. To tackle this issue, we propose a novel and effective two-stage framework to develop LLM critics that are capable of deliberately critiquing on each reasoning step of math solutions. In the first stage, we utilize Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for supervised fine-tuning. Each seed critique consists of deliberate step-wise critiques that includes multi-perspective verifications as well as in-depth critiques of initial critiques for each reasoning step. Then, we perform reinforcement learning on the fine-tuned model with either existing human-labeled data from PRM800K or our automatically annotated data obtained via Monte Carlo sampling-based correctness estimation, to further incentivize its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct not only significantly outperforms existing LLM critics (including the same-sized DeepSeek-R1-distill models and GPT-4o) on various error identification benchmarks, but also more effectively helps the LLM generator refine erroneous steps through more detailed feedback.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に進化しており、正確なフィードバックとアウトプットのスケーラブルな監視が緊急かつ重要な問題になっている。
自動監視を実現するためにLCMを批判モデルとして活用することは、有望な解決策である。
本研究では,LLMの数学批判能力の研究と向上に焦点をあてる。
現在のLLM批評家は、各ステップで浅く表面的すぎる批評を提供しており、判断精度が低く、LLMジェネレータが誤りを正すのに十分なフィードバックを提供するのに苦労している。
この問題に対処するために,算数解の各推論ステップを意図的に批判できるLLM評論家を育成するための,新規で効果的な2段階の枠組みを提案する。
第1段階では,Qwen2.5-72B-Instructを用いて4.5Kの長文批判を種データとして生成し,教師付き微調整を行う。
各種評定は、多点検定を含む故意の段階的評定と、各推論ステップに対する初期評定の詳細な評定からなる。
そこで我々は,PRM800Kの既存の人間ラベル付きデータや,モンテカルロサンプリングによる正当性推定によって得られた注釈付きデータを用いて,微調整モデルの強化学習を行い,その批判能力をさらに高めている。
Qwen2.5-7B-Instructで開発された批判モデルは,様々な誤り識別ベンチマークにおいて,既存のLLM批判者(同じ大きさのDeepSeek-R1-distill modelとGPT-4oを含む)よりも優れるだけでなく,より詳細なフィードバックによってLLMジェネレータが誤ったステップを洗練するのに役立つ。
関連論文リスト
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。