Fugu-MT 論文翻訳(概要): On Designing Effective RL Reward at Training Time for LLM Reasoning

論文の概要: On Designing Effective RL Reward at Training Time for LLM Reasoning

arxiv url: http://arxiv.org/abs/2410.15115v3
Date: Wed, 27 Nov 2024 11:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.009041
Title: On Designing Effective RL Reward at Training Time for LLM Reasoning
Title（参考訳）: LLM推論のための訓練時間における効果的なRLリワードの設計について
Authors: Jiaxuan Gao, Shusheng Xu, Wenjie Ye, Weilin Liu, Chuyi He, Wei Fu, Zhiyu Mei, Guangju Wang, Yi Wu,
Abstract要約: 我々は,Reward Model(ORM)やProcess-supervised Reward Model(PRM)など,RLトレーニングの一般的な報酬モデルを評価する。驚くべきことに、これらの学習された報酬モデルは推論時のパフォーマンスが強いにもかかわらず、RLトレーニングを助けたり、傷つけたりしないかもしれない。 Clipping と Delta の2つの新しい報酬改善手法を紹介した。
参考スコア（独自算出の注目度）: 14.006845442313134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward models have been increasingly critical for improving the reasoning capability of LLMs. Existing research has shown that a well-trained reward model can substantially improve model performances at inference time via search. However, the potential of reward models during RL training time still remains largely under-explored. It is currently unclear whether these reward models can provide additional training signals to enhance the reasoning capabilities of LLMs in RL training that uses sparse success rewards, which verify the correctness of solutions. In this work, we evaluate popular reward models for RL training, including the Outcome-supervised Reward Model (ORM) and the Process-supervised Reward Model (PRM), and train a collection of LLMs for math problems using RL by combining these learned rewards with success rewards. Surprisingly, even though these learned reward models have strong inference-time performances, they may NOT help or even hurt RL training, producing worse performances than LLMs trained with the success reward only. Our analysis reveals that an LLM can receive high rewards from some of these reward models by repeating correct but unnecessary reasoning steps, leading to a severe reward hacking issue. Therefore, we introduce two novel reward refinement techniques, including Clipping and Delta. The key idea is to ensure the accumulative reward of any reasoning trajectory is upper-bounded to keep a learned reward model effective without being exploited. We evaluate our techniques with multiple reward models over a set of 1.5B and 7B LLMs on MATH and GSM8K benchmarks and demonstrate that with a carefully designed reward function, RL training without any additional supervised tuning can improve all the evaluated LLMs, including the state-of-the-art 7B LLM Qwen2.5-Math-7B-Instruct on MATH and GSM8K benchmarks.
Abstract（参考訳）: LLMの推論能力を改善するために、リワードモデルはますます重要になっている。既存の研究では、よく訓練された報酬モデルが、検索による推論時間におけるモデル性能を大幅に改善できることが示されている。しかし、RL訓練期間中の報酬モデルの可能性は、いまだに未調査のままである。これらの報酬モデルが、疎成功報酬を用いて解の正当性を検証するRLトレーニングにおけるLLMの推論能力を高めるための追加のトレーニング信号を提供できるかは、現時点では不明である。本研究では,Reward Model (ORM) やProcess-supervised Reward Model (PRM) などのRLトレーニングにおける一般的な報酬モデルを評価し,これらの学習報酬と成功報酬を組み合わせることで,数学問題に対するLLMのコレクションをトレーニングする。驚くべきことに、これらの学習された報酬モデルは推論時のパフォーマンスが強いにもかかわらず、RLトレーニングを助けたり傷つけたりすることなく、成功報酬のみをトレーニングしたLLMよりもパフォーマンスが悪くなります。我々の分析では、LLMは正しいが不要な推論手順を繰り返すことで、これらの報酬モデルから高い報酬を得られることが判明し、深刻な報酬のハッキング問題に繋がる。そこで我々は,クリッピングとデルタを含む2つの新しい報酬精錬技術を紹介した。鍵となる考え方は、任意の推論軌道の累積報酬を上限にすることで、学習された報酬モデルを悪用されることなく効果的に保つことである。我々は,MATHおよびGSM8Kベンチマーク上で1.5Bと7BのLLMの集合を用いて複数の報奨モデルを用いて評価を行い,より慎重に設計された報奨関数により,最新技術である7B LLM Qwen2.5-Math-7B-Instruct on MATHおよびGSM8Kベンチマークを含む全ての評価LSMを改善することを実証した。

関連論文リスト

Generalist Reward Models: Found Inside Large Language Models [50.7432354447554]
我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
論文参考訳（メタデータ） (2025-06-29T13:45:54Z)
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason [36.50007948478452]
本研究では,報奨雑音が学習後の大規模言語モデルに与える影響について検討した。その結果、LLMは相当な報酬雑音に対して強い強靭性を示すことがわかった。本研究は,事前学習段階におけるモデルの基礎的能力の向上の重要性を示唆するものである。
論文参考訳（メタデータ） (2025-05-28T17:59:03Z)
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning [22.167272219418845]
マルチモーダル・リワードモデル(MRM)は、マルチモーダル大言語モデル(MLLM)の性能向上に重要な役割を果たす。本稿では,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを使用してトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2025-05-05T17:59:50Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文参考訳（メタデータ） (2025-02-04T19:37:35Z)
Process Reinforcement through Implicit Rewards [95.7442934212076]
複雑なプロセス報酬は、大きな言語モデル(LLM)の推論時間スケーリングにおいて、スパースな結果レベルの報酬よりも効果的な選択肢であることが証明されている。ディエンス報酬は、その微粒な報酬が結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)に魅力的な選択を与える。これは主に、高品質なプロセスラベルの収集が違法に高価であるオンラインのトレーニングプロセス報酬モデル(PRM)の課題に起因する可能性がある。提案するPRIMEは,ポリシロールアウトと結果ラベルのみを用いて,インプットプロセス報酬によるオンラインPRM更新を可能にする。
論文参考訳（メタデータ） (2025-02-03T15:43:48Z)
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL [7.988692259455583]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。我々は,ヒトの嗜好を予測する上で,最大80.40%の精度を達成できる報酬モデルを抽出し,様々な大きさの毒性アライメントLDMについて実験を行った。
論文参考訳（メタデータ） (2024-10-16T12:14:25Z)
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文参考訳（メタデータ） (2024-04-30T18:58:33Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Bayesian Reward Models for LLM Alignment [26.612181012468167]
我々は、トレーニングデータ分布からより高い不確実性を示すベイズ報酬モデルを訓練する。得られた不確実性推定は,BoNサンプリングにおける報酬過小評価を効果的に軽減できることがわかった。
論文参考訳（メタデータ） (2024-02-20T18:20:59Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
Self-Rewarding Language Models [105.6830788170348]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文参考訳（メタデータ） (2024-01-18T14:43:47Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文参考訳（メタデータ） (2023-11-15T04:40:43Z)
Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文参考訳（メタデータ） (2023-11-10T01:35:51Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Handling Sparse Rewards in Reinforcement Learning Using Model Predictive Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文参考訳（メタデータ） (2022-10-04T11:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。