論文の概要: Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models
- arxiv url: http://arxiv.org/abs/2506.06395v2
- Date: Tue, 10 Jun 2025 14:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.287522
- Title: Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models
- Title(参考訳): 信頼は必要なもの - RLの言語モデルの微調整
- Authors: Pengyi Li, Matvey Skripkin, Alexander Zubrey, Andrey Kuznetsov, Ivan Oseledets,
- Abstract要約: 大規模言語モデル(LLM)のための自己信頼による強化学習(RLSC)を提案する。
RLSCはモデル自身の自信を報奨信号として使用し、ラベル、選好モデル、報酬工学の必要性を排除している。
- 参考スコア(独自算出の注目度): 43.98994504606355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at reasoning, yet post-training remains critical for aligning their behavior with task goals. Existing reinforcement learning (RL) methods often depend on costly human annotations or external reward models. We propose Reinforcement Learning via Self-Confidence (RLSC), which uses the model's own confidence as reward signals-eliminating the need for labels, preference models, or reward engineering. Applied to Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps, RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a simple, scalable post-training method for inference models, requiring only a small number of samples and unlabelled supervision.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論において優れていますが、タスク目標と行動の整合には後トレーニングが不可欠です。
既存の強化学習(RL)手法は、コストのかかる人間のアノテーションや外部報酬モデルに依存することが多い。
本稿では,ラベル,選好モデル,報奨工学の必要性を解消する報奨信号として,モデル自身の自信を利用する自己信頼による強化学習(RLSC)を提案する。
Qwen2.5-Math-7Bに1問16サンプル、10または20のトレーニングステップで適用すると、RSSCはAIME2024で+13.4%、MATH500で+21.2%、Minerva Mathで+21.7%、Olympiadbenchで+20.8%、AMC23で+9.7%の精度が向上する。
RLSCは推論モデルのための単純でスケーラブルなポストトレーニング方法を提供する。
関連論文リスト
- AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild [46.25416990387885]
ロングチェーン・オブ・シント(CoT)推論は、ルールベースの報酬を持つ単純な強化学習フレームワークを通じて自然に現れる。
LLama3-8B,Mistral-7B/24B,DeepSeek-Math-7B,Qwen2.5-math-7B,およびQwen2.5モデル0.5Bから32Bを含む10種類のベースモデルを対象としたゼロRLトレーニングについて検討した。
論文 参考訳(メタデータ) (2025-03-24T17:06:10Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。