論文の概要: PRISM: A Unified Framework for Post-Training LLMs Without Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2601.04700v1
- Date: Thu, 08 Jan 2026 08:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.101307
- Title: PRISM: A Unified Framework for Post-Training LLMs Without Verifiable Rewards
- Title(参考訳): PRISM: 検証可能なリワードのないポストトレーニングLDMのための統一フレームワーク
- Authors: Mukesh Ghimire, Aosong Feng, Liwen You, Youzhi Luo, Fang Liu, Xuan Zhu,
- Abstract要約: 大規模言語モデルの訓練後の現在の技術は、費用のかかる人事監督や外部検証に頼っている。
PRISMは、プロセス・リワード・モデル(Process Reward Model, PRM)を用いて、モデルの内部信頼度とともに学習をガイドする統合トレーニングフレームワークである。
PRMと自己確実性を効果的に組み合わせることで,安定したトレーニングとテスト時間性能の両立が期待できることを示す。
- 参考スコア(独自算出の注目度): 16.15363954575401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current techniques for post-training Large Language Models (LLMs) rely either on costly human supervision or on external verifiers to boost performance on tasks such as mathematical reasoning and code generation. However, as LLMs improve their problem-solving, any further improvement will potentially require high-quality solutions to difficult problems that are not available to humans. As a result, learning from unlabeled data is becoming increasingly attractive in the research community. Existing methods extract learning signal from a model's consistency, either by majority voting or by converting the model's internal confidence into reward. Although internal consistency metric such as entropy or self-certainty require no human intervention, as we show in this work, these are unreliable signals for large-scale and long-term training. To address the unreliability, we propose PRISM, a unified training framework that uses a Process Reward Model (PRM) to guide learning alongside model's internal confidence in the absence of ground-truth labels. We show that effectively combining PRM with self-certainty can lead to both stable training and better test-time performance, and also keep the model's internal confidence in check.
- Abstract(参考訳): LLM(Large Language Models)の訓練後の現在の技術は、数学的な推論やコード生成といったタスクのパフォーマンスを高めるために、人為的な監督や外部の検証に頼っている。
しかし、LSMが問題解決を改善するにつれ、さらなる改善は、人間には利用できない難しい問題に対する高品質な解決策を必要とする可能性がある。
その結果、研究コミュニティでは、ラベルのないデータから学ぶことがますます魅力的になっている。
既存の方法は、多数決またはモデルの内部信頼度を報酬に変換することによって、モデルの一貫性から学習信号を抽出する。
エントロピーや自己確実性のような内部整合性尺度は人間の介入を必要としないが、この研究で示されているように、これらは大規模かつ長期の訓練には信頼性の低い信号である。
PRISMは,プロセス・リワード・モデル (Process Reward Model, PRM) を用いて, モデルの内部信頼度とともに学習を誘導する学習フレームワークである。
PRMと自己確実性を効果的に組み合わせることで、安定したトレーニングとテスト時のパフォーマンスが向上し、モデル内部の信頼性が維持できることを示す。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - RLSR: Reinforcement Learning from Self Reward [0.0]
大規模な言語モデルでは,参照解を使わずに自己判断によって効果的に自己改善できることを示す。
実験により, モデルが真理の答えを得られずに, 信頼性の高い報奨信号を提供できることを示した。
この作業は、自己指向学習を通じて継続的に改善される自律型AIシステムに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-05-12T23:51:04Z) - Self-Consistency of the Internal Reward Models Improves Self-Rewarding Language Models [63.116041268654705]
同じ大言語モデル内の異なる内部報酬モデルが、しばしば矛盾した嗜好を生じさせることがわかった。
この矛盾は、自己生成の嗜好データの信頼性への懸念を高め、全体的なアライメントパフォーマンスを阻害し、さらなる研究の必要性を強調する。
トレーニング中に内部報酬モデル間の整合性を高めるための新しいフレームワークである自己一貫性内部報酬(SCIR)を提案する。
論文 参考訳(メタデータ) (2025-02-13T03:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。