論文の概要: EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms
- arxiv url: http://arxiv.org/abs/2606.04145v1
- Date: Tue, 02 Jun 2026 19:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.334317
- Title: EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms
- Title(参考訳): EvalStop:マルチテナントRLHFプラットフォームにおけるワールドフィードバックによる逆オーバー最適化の検出と修正
- Authors: Guilin Zhang, Chuanyi Sun, Shahryar Sarkani, John M. Fossaceca,
- Abstract要約: クラウドファインチューニングプラットフォームは、学習された報酬モデルが人間の品質のプロキシとして最適化される、RLHFワークロードにますます役立ちます。
EvalStopは、k連続のevalスコアダウンのジョブを終了し、GPUをリリースし、最高のチェックポイントを保持し、ベーススケジューラに委譲する。
RLHF重負荷では、EvalStopは精度98%/リコール99%/FPR 1.5%を実現し、JCTを9%改善し、SRTF-Estを22%削減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cloud LLM fine-tuning platforms increasingly serve RLHF workloads, where a learned reward model is optimized as a proxy for human quality. As Gao et al. (2023) showed, this proxy diverges from world feedback (downstream eval metrics) under sustained optimization pressure, a phenomenon known as reward overoptimization. Existing platform schedulers ignore this divergence: non-clairvoyant schedulers optimize JCT without any quality signal, SLAQ-style quality-aware schedulers use training loss (a weaker proxy that drops monotonically through hacking), and classical per-job early stopping requires human monitoring and does not free shared GPUs. We propose EvalStop, a composable scheduling primitive that terminates jobs on k consecutive eval-score declines, releases GPUs, preserves the best checkpoint, and delegates to any base scheduler. We frame scheduler-level early stopping as a detection problem and evaluate it in a discrete-event simulator whose RLHF workload mixes reward-hacking and structurally healthy runs, with ground-truth labels hidden from schedulers. On RLHF-heavy workloads (80% RLHF, 64 GPUs), EvalStop achieves precision 98% / recall 99% / FPR 1.5% while improving JCT by 9% and cutting wasted compute by 22% over SRTF-Est (p<0.05). Trivial fixed-progress and loss-plateau competitors either incur 65% FPR on healthy RLHF or miss over half of true hacking cases. Gains compose across every base scheduler tested (9-25% JCT) and detection quality stays stable under eval noise (precision at least 91% at noise std <= 0.05) and hacking base rate (precision at least 89% across 20-80% hacking fractions).
- Abstract(参考訳): クラウドLLMファインチューニングプラットフォームは、学習された報酬モデルが人間の品質のプロキシとして最適化されるように、RLHFワークロードを提供するようになってきている。
Gao et al (2023) が示したように、このプロキシは、継続的な最適化圧力の下で世界フィードバック(下流のevalメトリック)から分岐する。
既存のプラットフォームスケジューラはこの違いを無視している。非サーボスケジューラは品質信号なしでJCTを最適化し、SLAQスタイルのクオリティアスケジューラはトレーニング損失(ハッキングによってモノトニックにドロップする弱いプロキシ)を使用し、古典的な1ジューブの早期停止は人間の監視を必要とし、共有GPUは無料である。
コンポーザブルなスケジューリングプリミティブであるEvalStopを提案する。このプリミティブは、連続するevalスコアの低下を解消し、GPUをリリースし、最適なチェックポイントを保持し、ベーススケジューラに委譲する。
我々は、スケジューラレベルの早期停止を検知問題とし、RLHFの作業負荷が報酬ハックと構造的に健全なランニングを混合し、スケジューラから接地トラストラベルを隠蔽した離散イベントシミュレータで評価する。
RLHF重負荷(RLHF、64GPU)では、EvalStopは精度98%/リコール99%/FPR 1.5%を実現し、JCTを9%改善し、SRTF-Estを22%削減した(p<0.05)。
トライバイアルの固定プログレスとロスプレートの競合は、健康なRLHFで65%のFPRを発生させるか、真のハッキング事件の半分以上を見逃す。
ゲインはテスト対象のベーススケジューラ(9-25% JCT)で構成され、検出品質はevalノイズ(ノイズstd <= 0.05で少なくとも91%の精度)とハッキングベースレート(20-80%のハッキング率で少なくとも89%の精度)の下で安定している。
関連論文リスト
- When RLHF Fails: A Mechanistic Taxonomy of Reward Hacking, Collapse, and Evaluator Gaming [0.0]
近似ポリシ最適化(PPO)を用いたコンパクトRLHFパイプラインの失敗モードに関する実証的研究について述べる。
我々は、学習した報酬の方向、判定スコア、および平均判定スコアを用いて、チェックポイント間の一致した遷移を分類する。
ROC-AUC 0.821による将来の行レベルの報酬ハッキングを予測し、行レベルの分析では、チェックポイント平均が12の3つの設定で見逃すような局所的な報酬ハックが見つかる。
論文 参考訳(メタデータ) (2026-06-02T06:55:52Z) - ESPO: Early-Stopping Proximal Policy Optimization [78.79610718910628]
ESPO(Early-Stopping Proximal Policy Optimization)は、軌道上の障害を検出し、ロールアウトを早期に終了する。
DeepSeek-R1-Distill-Qwen-7Bでは、ESPOはAIME2024(46.28%対45.25%)、AMC2023(85.83%対82.94%)、MATH-500(87.42%対85.43%)でPPOを上回っている。
論文 参考訳(メタデータ) (2026-05-28T12:40:22Z) - Residual Koopman Spectral Profiling for Predicting and Preventing Transformer Training Instability [40.24077350481118]
トランスフォーマーのトレーニングのばらつきは計算を無駄にするが、実践者は高価なランニングの開始後にのみ不安定を発見する。
我々はRKSP(Residual Koopman Spectral Profiling)について検討した。
我々の中心的な診断は、近単位スペクトル質量であり、単位円の近くに集中したモードの分画を定量化し、不安定なリスクを捉えます。
論文 参考訳(メタデータ) (2026-02-26T13:33:25Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
Preference As Reward (PAR) は、報酬モデルに埋め込まれた潜在的嗜好を強化学習の信号として活用する新しいアプローチである。
AlpacaEval 2.0ベンチマークでは、PARは競合するアプローチよりも少なくとも5パーセント高い勝利率を達成する。
論文 参考訳(メタデータ) (2025-02-26T02:57:59Z) - The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2024-09-30T15:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。