Fugu-MT 論文翻訳(概要): Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms

論文の概要: Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms

arxiv url: http://arxiv.org/abs/2406.02900v2
Date: Tue, 05 Nov 2024 01:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.280988
Title: Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
Title（参考訳）: 直列配向アルゴリズムにおける逆モデル過最適化のスケーリング法則
Authors: Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna, Bradley Knox, Chelsea Finn, Scott Niekum,
Abstract要約: Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
参考スコア（独自算出の注目度）: 50.808123629394245
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) has been crucial to the recent success of Large Language Models (LLMs), however, it is often a complex and brittle process. In the classical RLHF framework, a reward model is first trained to represent human preferences, which is in turn used by an online reinforcement learning (RL) algorithm to optimize the LLM. A prominent issue with such methods is reward over-optimization or reward hacking, where performance as measured by the learned proxy reward model increases, but true quality plateaus or even deteriorates. Direct Alignment Algorithms (DDAs) like Direct Preference Optimization have emerged as alternatives to the classical RLHF pipeline by circumventing the reward modeling phase. However, although DAAs do not use a separate proxy reward model, they still commonly deteriorate from over-optimization. While the so-called reward hacking phenomenon is not well-defined for DAAs, we still uncover similar trends: at higher KL budgets, DAA algorithms exhibit similar degradation patterns to their classic RLHF counterparts. In particular, we find that DAA methods deteriorate not only across a wide range of KL budgets but also often before even a single epoch of the dataset is completed. Through extensive empirical experimentation, this work formulates and formalizes the reward over-optimization or hacking problem for DAAs and explores its consequences across objectives, training regimes, and model scales.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF)は、最近のLarge Language Models (LLMs)の成功に不可欠であるが、しばしば複雑で不安定なプロセスである。古典的なRLHFフレームワークでは、報酬モデルはまず人間の好みを表現するために訓練され、オンライン強化学習(RL)アルゴリズムによってLLMを最適化するために使用される。このような方法の大きな問題は、学習されたプロキシ報酬モデルによって測定されたパフォーマンスが増大するが、真の品質の高騰や、さらには悪化する、過度な最適化や報酬ハックである。ダイレクトアライメントアルゴリズム(DDA)は、報酬モデリングフェーズを回避し、古典的なRLHFパイプラインに代わるものとして登場した。しかしながら、DAAは別のプロキシ報酬モデルを使用していないが、通常は過度な最適化によって劣化している。いわゆる報酬ハッキング現象は、DAAにとってよく定義されていないが、同じような傾向がまだ明らかである:高いKL予算では、DAAアルゴリズムは従来のRLHFと同じような劣化パターンを示す。特に,DAA法は,広範囲のKL予算だけでなく,データセットの1つのエポックが完成する前にも劣化することがわかった。広範な実証実験を通じて、この研究はDAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目的、訓練体制、モデルスケールにわたって探求する。

関連論文リスト

Reward Model Overoptimisation in Iterated RLHF [3.6701456157280052]
RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルと人間の好みを整合させる手法である。 RLHFはしばしば報酬モデルの過度な最適化に悩まされ、モデルが報酬関数に過度に適合する。反復RLHFにおける過最適化の総合的研究について紹介する。
論文参考訳（メタデータ） (2025-05-23T17:36:13Z)
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [3.30671592417223]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-03T16:16:35Z)
ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文参考訳（メタデータ） (2025-03-08T11:19:48Z)
Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。 DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文参考訳（メタデータ） (2024-12-24T08:39:35Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
Averaging log-likelihoods in direct alignment [43.77763433288893]
本稿では,RL問題に対する最適ポリシーを与える最適演算子で構成する,新しい平均演算子を提案する。このような平均化の効果を実証的に研究し、世代長とスコアのトレードオフを観察する。
論文参考訳（メタデータ） (2024-06-27T14:07:38Z)
SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文参考訳（メタデータ） (2024-06-21T18:05:35Z)
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文参考訳（メタデータ） (2024-06-11T17:01:41Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文参考訳（メタデータ） (2021-05-25T10:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。