論文の概要: From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function
- arxiv url: http://arxiv.org/abs/2404.12358v1
- Date: Thu, 18 Apr 2024 17:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 18:42:29.786914
- Title: From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function
- Title(参考訳): $r$から$Q^*$:あなたの言語モデルは秘密裏にQ-Functionである
- Authors: Rafael Rafailov, Joey Hejna, Ryan Park, Chelsea Finn,
- Abstract要約: Reinforcement Learning From Human Feedback (RLHF)は、次世代のジェネレーティブAIモデルの成功に不可欠である。
直接選好最適化(DPO)は代替手法として登場している。
DPOは標準のRLHF設定と同じ目的を達成しているが、2つのアプローチの間にはミスマッチがある。
- 参考スコア(独自算出の注目度): 50.812404038684505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning From Human Feedback (RLHF) has been a critical to the success of the latest generation of generative AI models. In response to the complex nature of the classical RLHF pipeline, direct alignment algorithms such as Direct Preference Optimization (DPO) have emerged as an alternative approach. Although DPO solves the same objective as the standard RLHF setup, there is a mismatch between the two approaches. Standard RLHF deploys reinforcement learning in a specific token-level MDP, while DPO is derived as a bandit problem in which the whole response of the model is treated as a single arm. In this work we rectify this difference, first we theoretically show that we can derive DPO in the token-level MDP as a general inverse Q-learning algorithm, which satisfies the Bellman equation. Using our theoretical results, we provide three concrete empirical insights. First, we show that because of its token level interpretation, DPO is able to perform some type of credit assignment. Next, we prove that under the token level formulation, classical search-based algorithms, such as MCTS, which have recently been applied to the language generation space, are equivalent to likelihood-based search on a DPO policy. Empirically we show that a simple beam search yields meaningful improvement over the base DPO policy. Finally, we show how the choice of reference policy causes implicit rewards to decline during training. We conclude by discussing applications of our work, including information elicitation in multi-tun dialogue, reasoning, agentic applications and end-to-end training of multi-model systems.
- Abstract(参考訳): Reinforcement Learning From Human Feedback (RLHF)は、次世代のジェネレーティブAIモデルの成功に不可欠である。
古典的なRLHFパイプラインの複雑な性質に応じて、直接優先度最適化(DPO)のような直接アライメントアルゴリズムが代替手法として登場した。
DPOは標準のRLHF設定と同じ目的を達成しているが、2つのアプローチの間にはミスマッチがある。
標準RLHFは、特定のトークンレベルのMDPに強化学習を展開させる一方、DPOは、モデル全体の応答を単一のアームとして扱うバンドイット問題として導出される。
本稿では,この差分を補正し,まず,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとしてトークンレベルMDPのDPOを導出できることを理論的に示す。
理論的結果を用いて,3つの具体的経験的洞察を提供する。
まず、トークンレベルの解釈により、DPOはある種の信用代入を行うことができることを示す。
次に、トークンレベルの定式化の下で、最近言語生成分野に応用されたMCTSのような古典的な検索アルゴリズムは、DPOポリシー上の可能性に基づく探索と等価であることを示す。
実験により、単純なビームサーチが基本DPOポリシーよりも有意義な改善をもたらすことを示す。
最後に、参照ポリシーの選択がトレーニング中に暗黙の報酬を減少させるかを示す。
本稿では,多言語対話における情報活用,推論,エージェントアプリケーション,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
関連論文リスト
- Zeroth-Order Policy Gradient for Reinforcement Learning from Human
Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [36.97894955691627]
マルコフ決定過程(MDP)としてRLHF問題をモデル化するフレームワークを導入する。
このフレームワークでは、優先データからトークンワイド報酬関数を学習するReinforced Token Optimization(textttRTO)と呼ばれるアルゴリズムを導入する。
実践的な実装として、texttRTOは、DPO(Direct Preference Optimization)とプロキシポリシー最適化(Proximal Policy Optimization)を革新的に統合している。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [16.99550556866219]
Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。
学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。
PPOは、あらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争において最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2024-04-16T16:51:53Z) - Reinforcement Learning from Human Feedback with Active Queries [67.27150911254155]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発されたクエリ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。