論文の概要: KL-Regularised Q-Learning: A Token-level Action-Value perspective on Online RLHF
- arxiv url: http://arxiv.org/abs/2508.17000v1
- Date: Sat, 23 Aug 2025 11:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.29417
- Title: KL-Regularised Q-Learning: A Token-level Action-Value perspective on Online RLHF
- Title(参考訳): KL-regularized Q-Learning:オンラインRLHFにおけるトークンレベルのアクションバリュー視点
- Authors: Jason R Brown, Lennie Wells, Edward James Young, Sergio Bacallado,
- Abstract要約: 我々は、LM-RLHF設定のための新しいアクション値RL法、KL正規化Q-Learning(KLQ)を開発した。
本手法は, 動機が全く異なるにもかかわらず, 特定の意味でのPPOと等価であることを示す。
我々は、KLQがLM-RLHF目標の最適化においてPPOと対決し、LLM-as-a-judge評価においてPPOに対して一貫した勝利率を達成することを示した。
- 参考スコア(独自算出の注目度): 1.8665975431697432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proximal Policy Optimisation (PPO) is an established and effective policy gradient algorithm used for Language Model Reinforcement Learning from Human Feedback (LM-RLHF). PPO performs well empirically but has a heuristic motivation and handles the KL-divergence constraint used in LM-RLHF in an ad-hoc manner. In this paper, we develop a a new action-value RL method for the LM-RLHF setting, KL-regularised Q-Learning (KLQ). We then show that our method is equivalent to a version of PPO in a certain specific sense, despite its very different motivation. Finally, we benchmark KLQ on two key language generation tasks -- summarisation and single-turn dialogue. We demonstrate that KLQ performs on-par with PPO at optimising the LM-RLHF objective, and achieves a consistently higher win-rate against PPO on LLM-as-a-judge evaluations.
- Abstract(参考訳): PPO(Proximal Policy Optimisation)は、人間のフィードバックからの言語モデル強化学習(LM-RLHF)に使用される、確立された効果的なポリシー勾配アルゴリズムである。
PPOは経験的によく機能するが、ヒューリスティックなモチベーションを持ち、LM-RLHFで使用されるKL分割制約をアドホックな方法で処理する。
本稿では,LM-RLHF設定のための新しいアクション値RL法,KL正規化Q-Learning(KLQ)を提案する。
そして,本手法は,その動機が全く異なるにもかかわらず,ある特定の意味でのPPOのバージョンと等価であることを示す。
最後に、KLQを要約とシングルターン対話という2つの重要な言語生成タスクでベンチマークする。
我々は、KLQがLM-RLHF目標の最適化においてPPOと対決し、LLM-as-a-judge評価においてPPOに対して一貫した勝利率を達成することを示した。
関連論文リスト
- Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。