論文の概要: CAMEL: Confidence-Gated Reflection for Reward Modeling
- arxiv url: http://arxiv.org/abs/2602.20670v1
- Date: Tue, 24 Feb 2026 08:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.670461
- Title: CAMEL: Confidence-Gated Reflection for Reward Modeling
- Title(参考訳): CAMEL:リワードモデリングのための信頼性保証反射
- Authors: Zirui Zhu, Hailun Xu, Yang Luo, Yong Liu, Kanchan Sarkar, Kun Xu, Yang You,
- Abstract要約: CAMELは、まず軽量なシングルトークン選択決定を行う信頼度の高いリフレクションフレームワークである。
提案手法は,プレフィックス強化による強化学習を通じて学習し,そのモデルに様々な初期判定を施し,真の修正を促す。
実証的に、CAMELは82.9%の平均精度で広く使用されている3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 26.908515245229747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models play a fundamental role in aligning large language models with human preferences. Existing methods predominantly follow two paradigms: scalar discriminative preference models, which are efficient but lack interpretability, and generative judging models, which offer richer reasoning at the cost of higher computational overhead. We observe that the log-probability margin between verdict tokens strongly correlates with prediction correctness, providing a reliable proxy for instance difficulty without additional inference cost. Building on this insight, we propose CAMEL, a confidence-gated reflection framework that performs a lightweight single-token preference decision first and selectively invokes reflection only for low-confidence instances. To induce effective self-correction, we train the model via reinforcement learning with counterfactual prefix augmentation, which exposes the model to diverse initial verdicts and encourages genuine revision. Empirically, CAMEL achieves state-of-the-art performance on three widely used reward-model benchmarks with 82.9% average accuracy, surpassing the best prior model by 3.2% and outperforming 70B-parameter models using only 14B parameters, while establishing a strictly better accuracy-efficiency Pareto frontier.
- Abstract(参考訳): リワードモデルは、大きな言語モデルと人間の嗜好の整合において、基本的な役割を担っている。
既存の手法は主に2つのパラダイムに従う: 効率的なが解釈性に欠けるスカラー識別選好モデルと、高い計算オーバーヘッドを犠牲にしてより豊かな推論を提供する生成的判断モデルである。
検証トークン間の対数確率マージンは予測精度と強く相関し,追加の推論コストを伴わない信頼性の高いプロキシを提供する。
この知見に基づいて、まず軽量なシングルトークン選択決定を行い、低信頼のインスタンスに対してのみリフレクションを選択的に起動する信頼性の高いリフレクションフレームワークであるCAMELを提案する。
効果的な自己補正を行うため,提案手法を強化学習(regressed learning)を用いて学習し,提案手法を様々な初期判断に公開し,真の修正を促す。
実証的には、CAMELは82.9%の平均精度で広く使用されている3つの報酬モデルベンチマークで最先端のパフォーマンスを達成し、最上位モデルの3.2%を上回り、14Bパラメータのみを使用して70Bパラメータモデルを上回った。
関連論文リスト
- EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs [9.412828452977553]
既存のアプローチは成功した推論パスを強化し、かなりのキャリブレーションコストを発生させる。
この失敗は、アライメントにおけるモデル崩壊の一形態として特徴づけられている。
推論性能とキャリブレーションを協調的に最適化する訓練目標として,EpiCaRを提案する。
論文 参考訳(メタデータ) (2026-01-11T06:21:13Z) - Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models [63.00458229517523]
本研究は、嗜好表現を探索することで、報酬モデルの評価課題に対処する。
多次元リワードモデルベンチマーク (MRMBench) を構築する。
本稿では,報酬予測時に使用する次元を同定し,その解釈可能性を高める解析手法,推論時探索を提案する。
論文 参考訳(メタデータ) (2025-11-16T05:29:29Z) - Explicit Reasoning Makes Better Judges: A Systematic Study on Accuracy, Efficiency, and Robustness [12.513874407270142]
我々は,Large Language Models (LLMs) と "thinking" と "non-thinking" の体系的比較を示す。
RewardBenchタスクの精度と計算効率(FLOP)を評価した。
以上の結果から,思考モデルの精度は10%程度向上し,オーバーヘッドは少なかった。
論文 参考訳(メタデータ) (2025-09-09T18:36:02Z) - Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future [38.1810626252963]
自己回帰言語モデル(Self-Rewarding Language Models)は、LLM-as-a-Judgeプロンプトを通じて、大きな言語モデル(LLM)が応答を生成し、独自の出力を評価するアーキテクチャを提案する。
本研究では,過去,現在,将来のモデル世代を戦略的に調整し,学習信号を持続するテキストbf自己回帰言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:25:54Z) - Bi-directional Model Cascading with Proxy Confidence [3.1890398692194326]
本稿では,カスケード内の小型モデルと大規模モデルの信頼性を同時に考慮した,双方向なdeferralアプローチを提案する。
隠れ状態の分析を用いて、小型モデルの起動後信頼性を向上させる。
次に、これを小さなプロキシモデルと組み合わせて、大規模なモデルの起動前信頼性を推定します。
論文 参考訳(メタデータ) (2025-04-27T23:48:14Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。