論文の概要: Uncertainty-Guided Checkpoint Selection for Reinforcement Finetuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.09864v1
- Date: Fri, 14 Nov 2025 01:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.533213
- Title: Uncertainty-Guided Checkpoint Selection for Reinforcement Finetuning of Large Language Models
- Title(参考訳): 大規模言語モデルの強化ファインタニングのための不確かさ誘導チェックポイント選択
- Authors: Manh Nguyen, Dung Nguyen, Dai Do, Svetha Venkatesh, Hung Le,
- Abstract要約: 強化学習(RL)ファインタニングは大規模言語モデル(LLM)の整合に不可欠であるが、そのプロセスは不安定である。
実際に、最高のチェックポイントを選択することは難しい。トレーニング中の検証セットのチェックポイントを評価することは、計算コストが高く、優れた検証セットが必要である。
チェックポイント選択(UGCS)に対する不確実性誘導手法を導入し,これらの落とし穴を回避する。
- 参考スコア(独自算出の注目度): 27.97382399449914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) finetuning is crucial to aligning large language models (LLMs), but the process is notoriously unstable and exhibits high variance across model checkpoints. In practice, selecting the best checkpoint is challenging: evaluating checkpoints on the validation set during training is computationally expensive and requires a good validation set, while relying on the final checkpoint provides no guarantee of good performance. We introduce an uncertainty-guided approach for checkpoint selection (UGCS) that avoids these pitfalls. Our method identifies hard question-answer pairs using per-sample uncertainty and ranks checkpoints by how well they handle these challenging cases. By averaging the rewards of the top-uncertain samples over a short training window, our method produces a stable and discriminative signal without additional forward passes or significant computation overhead. Experiments across three datasets and three LLMs demonstrate that it consistently identifies checkpoints with stronger generalization, outperforming traditional strategies such as relying on training or validation performance. These results highlight that models solving their hardest tasks with low uncertainty are the most reliable overall.
- Abstract(参考訳): 強化学習(RL)ファインタニングは、大規模言語モデル(LLM)の整列に不可欠であるが、このプロセスは不安定であり、モデルチェックポイント間で高いばらつきを示す。
実際、最高のチェックポイントを選択することは難しい。トレーニング中の検証セットのチェックポイントの評価は計算に高価であり、優れた検証セットを必要とするが、最終的なチェックポイントに依存することは、優れたパフォーマンスを保証するものではない。
チェックポイント選択(UGCS)に対する不確実性誘導手法を導入し,これらの落とし穴を回避する。
本手法は, サンプルごとの不確実性を用いて, 難解な問合せ対を同定し, それらの問合せをいかにうまく扱えるかによって, チェックポイントのランク付けを行う。
トレーニングウィンドウ上の上位不確かさサンプルの報酬を平均化することにより,フォワードパスの追加や計算オーバーヘッドの大幅な増大を伴わずに,安定かつ識別的な信号を生成する。
3つのデータセットと3つのLSMにわたる実験では、トレーニングや検証パフォーマンスなど、従来の戦略よりも優れた、より強力な一般化によるチェックポイントを一貫して識別することを示した。
これらの結果は、最も困難なタスクを低い不確実性で解決するモデルは、全体として最も信頼性が高いことを浮き彫りにしている。
関連論文リスト
- Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Instability in Downstream Task Performance During LLM Pretraining [12.840216854750565]
多様なWebスケールコーパスで学習した大規模言語モデル(LLM)における下流タスク性能の安定性について検討する。
タスクスコアは、アグリゲーションレベルとサンプルレベルの両方で、トレーニングを通して頻繁に変動する。
この不安定性に対処するために、チェックポイント平均化とアンサンブルという2つのポストホックチェックポイント統合手法について検討する。
論文 参考訳(メタデータ) (2025-10-06T14:33:38Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。
学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。
低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文 参考訳(メタデータ) (2025-05-26T03:54:47Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Rethinking Self-training for Semi-supervised Landmark Detection: A Selection-free Approach [4.511384690621755]
Self-Training for Landmark Detection (STLD) は、明示的な擬似ラベル選択を必要としない手法である。
STLDは、確認バイアスに対処するタスクカリキュラムを構築する。
3つの顔と1つの医学的ランドマーク検出ベンチマークの実験は、STLDが既存の方法より優れていることを示している。
論文 参考訳(メタデータ) (2024-04-06T08:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。