論文の概要: Efficient Online RFT with Plug-and-Play LLM Judges: Unlocking State-of-the-Art Performance
- arxiv url: http://arxiv.org/abs/2506.05748v1
- Date: Fri, 06 Jun 2025 05:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.325104
- Title: Efficient Online RFT with Plug-and-Play LLM Judges: Unlocking State-of-the-Art Performance
- Title(参考訳): プラグイン・アンド・プレイ LLM 判事によるオンライン RFT の有効性: 最先端性能の解き放つ
- Authors: Rudransh Agnihotri, Ananya Pandey,
- Abstract要約: リワードモデルトレーニングは、現代の強化学習ヒューマンフィードバック(RLHF)パイプラインのコストボトルネックである。
提案手法では, 冷凍型7B LLMを1行とランク16のLORAアダプタで拡張する。
プラグ・アンド・プレイの審査員96.2%はRewardBenchの精度を達成し、27Bから70Bパラメータの特殊報酬ネットワークを上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reward-model training is the cost bottleneck in modern Reinforcement Learning Human Feedback (RLHF) pipelines, often requiring tens of billions of parameters and an offline preference-tuning phase. In the proposed method, a frozen, instruction-tuned 7B LLM is augmented with only a one line JSON rubric and a rank-16 LoRA adapter (affecting just 0.8% of the model's parameters), enabling it to serve as a complete substitute for the previously used heavyweight evaluation models. The plug-and-play judge achieves 96.2% accuracy on RewardBench, outperforming specialized reward networks ranging from 27B to 70B parameters. Additionally, it allows a 7B actor to outperform the top 70B DPO baseline, which scores 61.8%, by achieving 92% exact match accuracy on GSM-8K utilizing online PPO. Thorough ablations indicate that (i) six in context demonstrations deliver the majority of the zero-to-few-shot improvements (+2pp), and (ii) the LoRA effectively addresses the remaining disparity, particularly in the safety and adversarial Chat-Hard segments. The proposed model introduces HH-Rationales, a subset of 10,000 pairs from Anthropic HH-RLHF, to examine interpretability, accompanied by human generated justifications. GPT-4 scoring indicates that our LoRA judge attains approximately = 9/10 in similarity to human explanations, while zero-shot judges score around =5/10. These results indicate that the combination of prompt engineering and tiny LoRA produces a cost effective, transparent, and easily adjustable reward function, removing the offline phase while achieving new state-of-the-art outcomes for both static evaluation and online RLHF.
- Abstract(参考訳): リワードモデルトレーニングは、現代の強化学習ヒューマンフィードバック(RLHF)パイプラインのコストボトルネックであり、数千億のパラメータとオフラインの優先度調整フェーズを必要とすることが多い。
提案手法では,1行のJSONルーブリックとランク16のLoRAアダプタ(モデルのパラメータのわずか0.8%)で凍結調整した7B LLMを拡張し,従来の重み付け評価モデルの完全な代替品として機能させる。
プラグ・アンド・プレイの審査員はRewardBenchで96.2%の精度を達成し、27Bから70Bパラメータの特別報酬ネットワークを上回っている。
さらに、7Bアクターは、オンラインPPOを使用してGSM-8K上で92%の正確なマッチング精度を達成し、上位70B DPOベースライン(スコア61.8%)を上回っている。
徹底的な説明は
(i)文脈における6つのデモは、ゼロ・ツー・ファウ・ショットの改善(+2pp)の大部分を提供し、
(II)LoRAは、特に安全および敵対的なChat-Hardセグメントにおける残りの格差を効果的に解決する。
提案モデルでは,HH-RLHFの1万対のサブセットであるHH-Rationalesを導入し,人間の生成した正当化を伴って解釈可能性を検討する。
GPT-4スコアは, ゼロショットの判定値が5/10程度であるのに対して, LRAの判定値は約9/10であることを示している。
これらの結果から,高速エンジニアリングと小型LORAの組み合わせは,静的評価とオンラインRLHFの両面において,新たな最先端の成果を達成しつつ,オフラインフェーズを除去し,費用対効果,透明性,容易な報酬関数を生成することが示唆された。
関連論文リスト
- RoRA: Efficient Fine-Tuning of LLM with Reliability Optimization for Rank Adaptation [59.34193580856381]
Low-Rank Adaptation (LoRA) は大規模言語モデルの微調整に広く使われ、有効である。
本稿では,LoRAのスケーリング係数を最適化するシンプルな手法であるRoRA(Rank-adaptive Reliability Optimization)を提案する。
RoRAは、ランクサイズが大きくなるにつれて性能が向上し、微調整プルーニングモデルにおける精度回復というより困難な課題を克服する。
論文 参考訳(メタデータ) (2025-01-08T07:13:52Z) - Dr. SoW: Density Ratio of Strong-over-weak LLMs for Reducing the Cost of Human Annotation in Preference Tuning [15.776175440446414]
本稿では,人間のアノテーションへの依存を解消するコスト効率の高い方法であるDr.SoW(Density Ratio of Strong over Weak)を紹介する。
Dr.SoW は報奨信号として、より整列した LLM と低整列の LLM の対数密度比を用いる。
Dr.SoWによるデータを用いたLlama-3-8B-インストラクタを選好する。
論文 参考訳(メタデータ) (2024-11-04T18:54:39Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - FLoCoRA: Federated learning compression with low-rank adaptation [0.0]
Low-Rank Adaptation (LoRA)法は、数十億のパラメータを含むモデルの効率的なパラメータ微調整で人気を集めている。
本稿では,フェデレートラーニングにおけるLoRA手法の適用例を示す。
論文 参考訳(メタデータ) (2024-06-20T07:59:29Z) - MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。
本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。
MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T08:57:23Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Exploring the impact of low-rank adaptation on the performance,
efficiency, and regularization of RLHF [47.960563851948514]
低ランク適応(LoRA)を用いたRLHFの効率的な実装について検討する。
本実装は,フルモデル微調整によるAlpacaFarmチェックポイントよりも優れた性能を実現する。
我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。
論文 参考訳(メタデータ) (2023-09-16T17:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。