Fugu-MT 論文翻訳(概要): UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function

論文の概要: UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function

arxiv url: http://arxiv.org/abs/2408.15339v1
Date: Tue, 27 Aug 2024 18:04:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 18:02:17.298431
Title: UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function
Title（参考訳）: UNA:一般帰納関数によるRLHF/PPO,DPO,KTOのアライメントの統一
Authors: Zhichao Wang, Bin Bi, Can Huang, Shiva Kumar Pentyala, Zixu James Zhu, Sitaram Asur, Na Claire Cheng,
Abstract要約: 我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。 RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
参考スコア（独自算出の注目度）: 14.7365465149829
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An LLM is pretrained on trillions of tokens, but the pretrained LLM may still generate undesired responses. To solve this problem, alignment techniques such as RLHF, DPO and KTO are proposed. However, these alignment techniques have limitations. For example, RLHF requires training the reward model and policy separately, which is complex, time-consuming, memory intensive and unstable during training processes. DPO proposes a mapping between an optimal policy and a reward, greatly simplifying the training process of RLHF. However, it can not take full advantages of a reward model and it is limited to pairwise preference data. In this paper, we propose \textbf{UN}ified \textbf{A}lignment (UNA) which unifies RLHF/PPO, DPO and KTO. Firstly, we mathematically prove that given the classical RLHF objective, the optimal policy is induced by a generalize implicit reward function. With this novel mapping between a reward model and an optimal policy, UNA can 1. unify RLHF/PPO, DPO and KTO into a supervised learning of minimizing the difference between an implicit reward and an explicit reward; 2. outperform RLHF/PPO while simplify, stabilize, speed up and reduce memory burden of RL fine-tuning process; 3. accommodate different feedback types including pairwise, binary and scalar feedback. Downstream experiments show UNA outperforms DPO, KTO and RLHF.
Abstract（参考訳）: LLMは数兆のトークンで事前訓練されるが、事前訓練されたLSMは依然として望ましくない応答を生成する可能性がある。この問題を解決するために,RLHF,DPO,KTOなどのアライメント手法を提案する。しかし、これらのアライメント技術には限界がある。例えば、RLHFは報酬モデルとポリシーを個別にトレーニングする必要がある。 DPOは最適なポリシーと報酬のマッピングを提案し、RLHFのトレーニングプロセスを大幅に単純化する。しかし、報酬モデルの完全な利点は得られず、ペアの選好データに限られる。本稿では,RLHF/PPO,DPO,KTOを統一した \textbf{UN}ified \textbf{A}lignment (UNA) を提案する。まず、古典的RLHFの目的が与えられた場合、最適ポリシーは一般化された暗黙の報酬関数によって誘導されることを数学的に証明する。この新たな報酬モデルと最適政策のマッピングにより、UNAは可能となる。 1.RLHF/PPO,DPO,KTOを暗黙の報酬と明示的な報酬との差を最小限に抑える指導的学習に統一すること。 2. RLHF/PPOの簡易化、安定化、高速化、RL微調整プロセスのメモリ負荷低減を図りながら、性能が向上する。ペア、バイナリ、スカラーのフィードバックなど、さまざまなフィードバックタイプに対応している。下流実験では、UNAはDPO、KTO、RLHFより優れていた。

関連論文リスト

Generalisation of RLHF under Reward Shift and Clipped KL Regularisation [20.456598402422813]
我々は、人間フィードバック(RLHF)からの強化学習のための一般化理論を開発する。 RLHFは、現在のポリシーを自身のロールアウトで最適化する一方、報奨モデルは、事前または混合の行動ポリシーからの選好データに基づいて訓練される。本稿では,RLHFの一般化境界について述べる。この一般化誤差は,プロンプトとロールアウトによるサンプリング誤差,報酬シフト誤差,KLクリッピング誤差から生じることを示唆する。この理論は、(1)最適なKLクリッピング閾値、(2)プロンプト、ロールアウト、および選好データにおける予算配分において、実用的な意味を持つ。
論文参考訳（メタデータ） (2026-02-25T10:36:17Z)
Provably Mitigating Corruption, Overoptimization, and Verbosity Simultaneously in Offline and Online RLHF/DPO Alignment [89.26250000307215]
人間からのフィードバックからの強化学習(RLHF)と直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる重要な手法である。しかし、RLHFとDPOトレーニングの品質は、textittextbfCorrupted preference, reward textittextbfOveroptimization, and bias towards textittextbfVerbosityによって著しく損なわれている。我々はRLHF-textbfCOVアルゴリズムとDPO-textbfCOVアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-10-07T02:32:47Z)
Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。 RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文参考訳（メタデータ） (2025-05-26T09:54:02Z)
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文参考訳（メタデータ） (2025-02-24T08:11:33Z)
Simplify RLHF as Reward-Weighted SFT: A Variational Method [34.222095430239555]
RLHF(Reinforcement Learning from Human Feedback)は、Large Language Models(LLM)と人的価値の整合に不可欠である。変分推論の観点からRLHFの単純化を提案する。我々は、アライメント目標を報酬駆動型微調整形式に変換し、トレーニングの安定性と効果を顕著に向上させる。
論文参考訳（メタデータ） (2025-02-16T07:22:00Z)
Sharp Analysis for KL-Regularized Contextual Bandits and RLHF [52.519416266840814]
Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
論文参考訳（メタデータ） (2024-11-07T11:22:46Z)
The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。 MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。 CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文参考訳（メタデータ） (2024-09-30T15:06:53Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文参考訳（メタデータ） (2024-04-18T17:37:02Z)
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs [29.505270680223003]
ヒューマンフィードバックからの強化学習の形でのAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われている。近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。 PPO の多くのコンポーネントは RLHF の文脈では不要であり、より単純な REINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。
論文参考訳（メタデータ） (2024-02-22T17:52:34Z)
Reinforcement Learning from Human Feedback with Active Queries [67.27150911254155]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。本稿では,能動学習の成功に触発されたクエリ効率の高いRLHF手法を提案する。実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2024-02-14T18:58:40Z)
SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文参考訳（メタデータ） (2023-10-25T16:52:00Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
RRHF: Rank Responses to Align Language Models with Human Feedback without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文参考訳（メタデータ） (2023-04-11T15:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。