論文の概要: Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem
- arxiv url: http://arxiv.org/abs/2506.03295v2
- Date: Thu, 05 Jun 2025 03:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.179052
- Title: Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem
- Title(参考訳): 1つの問題に対する批判的微調整による予訓練LDMの推論可能性の解き放つ
- Authors: Yubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen,
- Abstract要約: 一つの問題に対する批判的微調整(CFT)は,LLMの推論能力を効果的に解き放つことができることを示す。
わずか5回のGPUトレーニングで、Qwen-Math-7B-CFTは6つのベンチマークで平均15%改善、3つのロジック推論ベンチマークで平均16%改善した。
結果は20倍の計算量で、RLの結果に匹敵するか、さらに上回っている。
- 参考スコア(独自算出の注目度): 53.3188041952701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We have witnessed that strong LLMs like Qwen-Math, MiMo, and Phi-4 possess immense reasoning potential inherited from the pre-training stage. With reinforcement learning (RL), these models can improve dramatically on reasoning tasks. Recent studies have shown that even RL on a single problem can unleash these models' reasoning capabilities. However, RL is not only expensive but also unstable. Even one-shot RL requires hundreds of GPU hours. This raises a critical question: Is there a more efficient way to unleash the reasoning potential of these powerful base LLMs? In this work, we demonstrate that Critique Fine-Tuning (CFT) on only one problem can effectively unleash the reasoning potential of LLMs. Our method constructs critique data by collecting diverse model-generated solutions to a single problem and using teacher LLMs to provide detailed critiques. We fine-tune Qwen and Llama family models, ranging from 1.5B to 14B parameters, on the CFT data and observe significant performance gains across diverse reasoning tasks. For example, with just 5 GPU hours of training, Qwen-Math-7B-CFT show an average improvement of 15% on six math benchmarks and 16% on three logic reasoning benchmarks. These results are comparable to or even surpass the results from RL with 20x less compute. Ablation studies reveal the robustness of one-shot CFT across different prompt problems. These results highlight one-shot CFT as a simple, general, and compute-efficient approach to unleashing the reasoning capabilities of modern LLMs.
- Abstract(参考訳): 我々は、Qwen-Math、MiMo、Phi-4のような強力なLLMが、事前学習段階から受け継がれた大きな推論可能性を持っているのを目撃した。
強化学習(RL)により、これらのモデルは推論タスクにおいて劇的に改善される。
最近の研究では、単一の問題におけるRLでさえ、これらのモデルの推論能力を解き放つことが示されている。
しかし、RLは高価であるだけでなく不安定でもある。
ワンショットのRLでも数百時間のGPUを必要とする。
これらの強力なベースLLMの推論能力を解き放つための、より効率的な方法があるのだろうか?
本研究では,1つの問題のみに対する批判的微調整(CFT)がLLMの推論能力を効果的に解き放つことを実証する。
本手法は,1つの問題に対する多様なモデル生成ソリューションを収集し,教師のLCMを用いて詳細な批判情報を提供することにより,批判データを構築する。
1.5Bから14Bのパラメータを持つQwenとLlamaのファミリーモデルをCFTデータに基づいて微調整し、多様な推論タスク間で大きなパフォーマンス向上を観測する。
例えば、トレーニングに5時間しかかからないQwen-Math-7B-CFTは、6つの数学ベンチマークで平均15%改善、3つの論理推論ベンチマークで16%改善している。
これらの結果は、20倍の計算量でRLの結果に匹敵するか、さらに上回っている。
アブレーション研究は、異なるプロンプト問題にまたがるワンショットCFTの堅牢性を明らかにしている。
これらの結果は、現代のLLMの推論能力を解き放つための単純で汎用的で計算効率のよいアプローチとして、ワンショットCFTを強調している。
関連論文リスト
- Decomposing Elements of Problem Solving: What "Math" Does RL Teach? [22.517954679764244]
私たちは問題解決を、計画、実行、検証という基本的な機能に分解します。
RLを訓練したモデルは、計画スキルが不十分なため、基本的に新しい問題に悩まされ、"カバーウォール"にぶつかっていることを示す。
本研究は, LLM推論の強化におけるRLの役割について考察し, 重要な限界を明らかにするとともに, これらの障壁を克服するための道筋を示唆する。
論文 参考訳(メタデータ) (2025-05-28T18:18:49Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning [10.987902254146219]
我々は、推論時間における推論を適応的に強化するために、強化学習(RL)を用いた軽量ナビゲータモデルを訓練する。
RLナビゲータは3Kパラメータ未満で、100BスケールのLLMに匹敵するサブ10BのLLMを作ることができる。
論文 参考訳(メタデータ) (2025-05-20T09:43:33Z) - Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning [3.0449420665138485]
大規模言語モデル(LLM)は、特に数学において、公式な推論能力への関心を高めている。
そこで本研究では,より弱いLLMからの意見の混合(MoO)を利用して,(相対的に)強いLLM推論を強化するポストトレーニング手法を提案する。
その結果,LLMの考え方を取り入れることで,数学的推論が平均5%向上し,推論作業における多様な視点の価値が浮き彫りになることがわかった。
論文 参考訳(メタデータ) (2025-02-26T23:22:02Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。