論文の概要: Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
- arxiv url: http://arxiv.org/abs/2501.17703v2
- Date: Thu, 30 Jan 2025 17:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 11:52:56.998328
- Title: Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
- Title(参考訳): 批判的微調整: 批評を学ぶことは、模倣を学ぶことよりも効果的である
- Authors: Yubo Wang, Xiang Yue, Wenhu Chen,
- Abstract要約: Supervised Fine-Tuning (SFT) は、与えられた命令に対する注釈付き応答を模倣するために言語モデルを訓練するために一般的に使用される。
批判的思考を強調する人間の学習プロセスに触発されて、批判的微調整(CFT)を提案する。
CFTは、しばしば標準的なSFTによって見落とされがちな、深い分析とニュアンスド理解のトラストを奨励する。
- 参考スコア(独自算出の注目度): 41.58282051139543
- License:
- Abstract: Supervised Fine-Tuning (SFT) is commonly used to train language models to imitate annotated responses for given instructions. In this paper, we challenge this paradigm and propose Critique Fine-Tuning (CFT), a strategy where models learn to critique noisy responses rather than simply imitate correct ones. Inspired by human learning processes that emphasize critical thinking, CFT encourages deeper analysis and nuanced understanding-traits often overlooked by standard SFT. To validate the effectiveness of CFT, we construct a 50K-sample dataset from WebInstruct, using GPT-4o as the teacher to generate critiques in the form of ([query; noisy response], critique). CFT on this dataset yields a consistent 4-10% improvement over SFT on six math benchmarks with different base models like Qwen2.5, Qwen2.5-Math and DeepSeek-Math. We further expand to MetaMath and NuminaMath datasets and observe similar gains over SFT. Notably, our model Qwen2.5-Math-CFT only requires 1 hour training on 8xH100 over the 50K examples. It can match or outperform strong competitors like Qwen2.5-Math-Instruct on most benchmarks, which use over 2M samples. Moreover, it can match the performance of SimpleRL, which is a deepseek-r1 replication trained with 140x more compute. Ablation studies show that CFT is robust to the source of noisy response and teacher critique model. Through these findings, we argue that CFT offers a more effective alternative to advance the reasoning of language models.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、与えられた命令に対する注釈付き応答を模倣するために言語モデルを訓練するために一般的に使用される。
本稿では、このパラダイムに挑戦し、モデルが単に正しい表現を模倣するのではなく、騒音応答を批判的に学習する戦略であるCFT(Critique Fine-Tuning)を提案する。
批判的思考を強調する人間の学習プロセスにインスパイアされたCFTは、より深い分析と、標準のSFTによって見落とされがちな理解傾向を奨励する。
CFTの有効性を検証するため、GPT-4oを教師として用い、WebInstructから50Kサンプルのデータセットを構築し、(クエリ、ノイズ応答、批評)形式で批評を生成する。
このデータセット上のCFTは、Qwen2.5、Qwen2.5-Math、DeepSeek-Mathといった異なるベースモデルを持つ6つのベンチマークで、SFTよりも一貫して4-10%改善されている。
さらにMetaMathとNuminaMathのデータセットに拡張し、SFT上でも同様の利得を観測します。
特に、私たちのモデルであるQwen2.5-Math-CFTでは、50Kのサンプルよりも8xH100で1時間のトレーニングしか必要ありません。
ほとんどのベンチマークでは、Qwen2.5-Math-Instructのような強力な競合製品と、200万以上のサンプルを使用する。
さらに、140倍の計算でトレーニングされたDeepseek-r1レプリケーションであるSimpleRLのパフォーマンスにマッチする。
アブレーション研究では、CFTはノイズ応答の源泉と教師批判モデルに頑健であることが示されている。
これらの結果から,CFTは言語モデルの推論を推し進める上で,より効果的な代替手段であると主張している。
関連論文リスト
- LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問)
texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。
オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文 参考訳(メタデータ) (2024-10-02T14:00:09Z) - Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.46993852662021]
Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。
Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
論文 参考訳(メタデータ) (2024-09-18T16:45:37Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。
ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。
GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-17T04:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。