論文の概要: Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
- arxiv url: http://arxiv.org/abs/2501.17703v1
- Date: Wed, 29 Jan 2025 15:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:08.372688
- Title: Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
- Title(参考訳): 批判的微調整: 批評を学ぶことは、模倣を学ぶことよりも効果的である
- Authors: Yubo Wang, Xiang Yue, Wenhu Chen,
- Abstract要約: Supervised Fine-Tuning (SFT) は、与えられた命令に対する注釈付き応答を模倣するために言語モデルを訓練するために一般的に使用される。
批判的思考を強調する人間の学習プロセスに触発されて、批判的微調整(CFT)を提案する。
CFTは、しばしば標準的なSFTによって見落とされがちな、深い分析とニュアンスド理解のトラストを奨励する。
- 参考スコア(独自算出の注目度): 41.58282051139543
- License:
- Abstract: Supervised Fine-Tuning (SFT) is commonly used to train language models to imitate annotated responses for given instructions. In this paper, we challenge this paradigm and propose Critique Fine-Tuning (CFT), a strategy where models learn to critique noisy responses rather than simply imitate correct ones. Inspired by human learning processes that emphasize critical thinking, CFT encourages deeper analysis and nuanced understanding-traits often overlooked by standard SFT. To validate the effectiveness of CFT, we construct a 50K-sample dataset from WebInstruct, using GPT-4o as the teacher to generate critiques in the form of (input=[query; noisy response], output=critique). CFT on this dataset yields a consistent 4-10% improvement over SFT on six math benchmarks with different base models like Qwen2.5, Qwen2.5-Math and DeepSeek-Math. We further expand to MetaMath and NuminaMath datasets and observe similar gains over SFT. Notably, our Qwen2.5-Math-CFT model-trained on just 50K samples-matches or outperforms competitive models such as AceMath and Qwen2.5-Math-Instruct on most benchmarks, both of which use over 2M samples. Ablation studies show that CFT is robust to the source of noisy response and teacher critique model. Through these findings, we argue that critique-based training offers a more effective alternative to advance the reasoning of language models.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、与えられた命令に対する注釈付き応答を模倣するために言語モデルを訓練するために一般的に使用される。
本稿では、このパラダイムに挑戦し、モデルが単に正しい表現を模倣するのではなく、騒音応答を批判的に学習する戦略であるCFT(Critique Fine-Tuning)を提案する。
批判的思考を強調する人間の学習プロセスにインスパイアされたCFTは、より深い分析と、標準のSFTによって見落とされがちな理解傾向を奨励する。
CFTの有効性を検証するため、GPT-4oを教師として用い、WebInstructから50Kサンプルデータセットを構築し、(input=[query, noisy response], output=critique)という形式で批評を生成する。
このデータセット上のCFTは、Qwen2.5、Qwen2.5-Math、DeepSeek-Mathといった異なるベースモデルを持つ6つのベンチマークで、SFTよりも一貫して4-10%改善されている。
さらにMetaMathとNuminaMathのデータセットに拡張し、SFT上でも同様の利得を観測します。
特に、我々のQwen2.5-CFTモデルは、たった50Kのサンプルマッチでトレーニングされたり、ほとんどのベンチマークでAceMathやQwen2.5-Instructといった競合モデルより優れている。
アブレーション研究では、CFTはノイズ応答の源泉と教師批判モデルに頑健であることが示されている。
これらの結果から,批判に基づく学習は,言語モデルの推論を推し進める上で,より効果的な代替手段となると論じる。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data [8.36384597713879]
OpenMathInstruct-2データセットは、14万の質問解決ペアで構成されている($600Kのユニークな質問)
texttLlama-3.1-8B-Base を OpenMath Instruct-2 で微調整すると、texttLlama3.1-8B-Instruct on MATH は 15.9% 向上する。
オープンソースへの取り組みを加速するため、我々は商用ライセンス下でコード、微調整されたモデル、OpenMath Instruct-2データセットをリリースしました。
論文 参考訳(メタデータ) (2024-10-02T14:00:09Z) - Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.46993852662021]
Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。
Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
論文 参考訳(メタデータ) (2024-09-18T16:45:37Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。
ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。
GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-17T04:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。