論文の概要: REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2603.17145v1
- Date: Tue, 17 Mar 2026 21:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.396376
- Title: REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge
- Title(参考訳): REAL: LLM-as-a-Judgeのための回帰認識強化学習
- Authors: Yasi Zhang, Tianyu Chen, Mingyuan Zhou, Oscar Leong, Ying Nian Wu, Michal Lukasik,
- Abstract要約: 回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 83.2858110368572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as automated evaluators that assign numeric scores to model outputs, a paradigm known as LLM-as-a-Judge. However, standard Reinforcement Learning (RL) methods typically rely on binary rewards (e.g., 0-1 accuracy), thereby ignoring the ordinal structure inherent in regression tasks; for instance, they fail to recognize that predicting 4 is significantly better than predicting 1 when the ground truth is 5. Conversely, existing regression-aware approaches are often confined to Supervised Fine-Tuning (SFT), limiting their ability to explore optimal reasoning paths. To bridge this gap, we propose \textbf{REAL} (\underline{RE}gression-\underline{A}ware Reinforcement \underline{L}earning), a principled RL framework designed to optimize regression rewards, and also proven to be optimal for correlation metrics. A key technical challenge is that the regression objective is explicitly policy-dependent, thus invalidating standard policy gradient methods. To address this, we employ the generalized policy gradient estimator, which naturally decomposes optimization into two complementary components: (1) exploration over Chain-of-Thought (CoT) trajectory, and (2) regression-aware prediction refinement of the final score. Extensive experiments across model scales (8B to 32B) demonstrate that REAL consistently outperforms both regression-aware SFT baselines and standard RL methods, exhibiting significantly better generalization on out-of-domain benchmarks. On Qwen3-32B specifically, we achieve gains of +8.40 Pearson and +7.20 Spearman correlation over the SFT baseline, and +18.30/+11.20 over the base model. These findings highlight the critical value of integrating regression objectives into RL exploration for accurate LLM evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLM-as-a-Judgeとして知られるパラダイムであるモデル出力に数値スコアを割り当てる自動評価器として、ますます多くデプロイされている。
しかし、標準的な強化学習(RL)法は通常二進報酬(例えば、0-1精度)に依存しているため、回帰タスクに固有の順序構造を無視している。
逆に、既存の回帰対応アプローチは、しばしばSupervised Fine-Tuning (SFT)に限られており、最適な推論経路を探索する能力を制限する。
このギャップを埋めるために、回帰報酬を最適化するために設計された原則的RLフレームワークである \textbf{REAL} (\underline{RE}gression-\underline{A}ware Reinforcement \underline{L}earning) を提案する。
重要な技術的課題は、回帰目標が明示的にポリシーに依存しており、標準のポリシー勾配メソッドを無効にすることである。
これを解決するために、一般化された政策勾配推定器を用いて、最適化を自然に2つの相補的な成分に分解する。
モデルスケール(8Bから32B)にわたる大規模な実験により、REALは回帰対応のSFTベースラインと標準RLメソッドの両方を一貫して上回っており、ドメイン外のベンチマークでははるかに優れた一般化が示されている。
Qwen3-32Bでは、SFTベースライン上の+8.40ピアソンと+7.20スピアマン相関、ベースモデル上の+18.30/+11.20のゲインが得られる。
これらの結果から, 回帰目標をRL探査に統合し, 正確なLLM評価を行うことの重要性が示唆された。
関連論文リスト
- CAIRO: Decoupling Order from Scale in Regression [13.755937210012883]
回帰を2つの異なる段階に分離する枠組みを提案する。
第1段階では,スケール不変ランキングの損失を最小限に抑えることで,スコアリング関数を学習する。
第2に,等速回帰による目標スケールの復元を行う。
論文 参考訳(メタデータ) (2026-02-16T03:50:05Z) - RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization [65.23034604711489]
大規模な推論モデルをトレーニングするための自己改善フレームワークであるRLoopを紹介します。
RLoopはまず、RLを使用して所定のポリシからソリューション空間を探索し、成功したトラジェクトリをフィルタリングしてエキスパートデータセットを作成する。
実験の結果、RLoopsは一般化を忘れて大幅に改善し、平均精度は9%、pass@32はバニラRLに比べて15%以上向上した。
論文 参考訳(メタデータ) (2025-11-06T11:27:16Z) - Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning [49.57517969069136]
Asymmetric Proximal Policy Optimization (AsyPPO) は、大規模なモデル設定で効率を保ちながら、批評家の役割を回復するシンプルでスケーラブルなフレームワークである。
AsyPPOは軽量のミニ批評家を採用しており、それぞれが切り離されたプロンプトシャードで訓練されている。
強力なベースラインを越えて、複数のベンチマークで学習の安定性とパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-02T04:24:27Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Learning sparse generalized linear models with binary outcomes via iterative hard thresholding [20.28503550819373]
統計学において、一般化線形モデル(GLM)はデータモデリングに広く用いられている。
本稿では,2次反復型ハードしきい値(BIHT)と呼ばれる反復型ハードしきい値(ReLU損失に対する投射勾配勾配)アルゴリズムの使用と解析を提案する。
BIHTは統計的に効率的であり、スパースバイナリGLMの一般クラスにおいてパラメータ推定のための正しい解に収束することを示す。
論文 参考訳(メタデータ) (2025-02-25T17:42:33Z) - Post-hoc Reward Calibration: A Case Study on Length Bias [38.47276516266]
リワードモデル(RM)は、トレーニングデータに突発的な相関を利用してバイアスを発生させることができる。
これらのバイアスは、誤った出力ランキング、準最適モデル評価、望ましくない振る舞いの増幅につながる可能性がある。
本稿では、追加データやトレーニングを使わずにバイアスを修正するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-25T22:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。