論文の概要: Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment
- arxiv url: http://arxiv.org/abs/2310.00212v3
- Date: Tue, 10 Oct 2023 02:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:38:46.868326
- Title: Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment
- Title(参考訳): pairwise proximal policy optimization: 相対フィードバックを利用したllmアライメント
- Authors: Tianhao Wu, Banghua Zhu, Ruoyu Zhang, Zhaojin Wen, Kannan Ramchandran,
Jiantao Jiao
- Abstract要約: 本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
- 参考スコア(独自算出の注目度): 37.52249093928251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can acquire extensive world knowledge through
pre-training on large corpora. However, due to exposure to low-quality data,
LLMs may exhibit harmful behavior without aligning with human values. The
dominant approach for steering LLMs towards beneficial behavior involves
Reinforcement Learning with Human Feedback (RLHF), with Proximal Policy
Optimization (PPO) serving as the default RL optimizer. Despite its
effectiveness, PPO has limitations when optimizing rewards trained from
comparison-based loss. Primarily, PPO is not invariant to equivalent reward
functions containing identical preference information due to the need to
calibrate the reward scale. Additionally, PPO's necessity for token-wise
updates introduces complexity in both function approximation and algorithm
design compared to trajectory-wise optimization. This paper proposes a new
framework, reinforcement learning with relative feedback, and a novel
trajectory-wise policy gradient algorithm, Pairwise Proximal Policy
Optimization (P3O) that operates directly on comparative rewards. We show
theoretically that P3O is invariant to equivalent rewards and avoids the
complexity of PPO. Empirical evaluations demonstrate that P3O outperforms PPO
in the KL-Reward trade-off and can align with human preferences as well as or
better than prior methods. In summary, this work introduces a simpler yet
effective approach for aligning LLMs to human preferences through relative
feedback.
- Abstract(参考訳): 大規模言語モデル(LLM)は,大規模コーパスの事前学習を通じて,広範な世界知識を習得することができる。
しかし、低品質データに曝露されるため、LLMは人的価値に合わせることなく有害な行動を示す可能性がある。
有益な行動に向けてLLMを操る主要なアプローチは、RLHF(Reinforcement Learning with Human Feedback)であり、PPO(Proximal Policy Optimization)がデフォルトのRLオプティマイザとして機能する。
効果にもかかわらず、PPOは比較に基づく損失から訓練された報酬を最適化する際に制限がある。
主に、PPOは報酬尺度を校正する必要があるため、同一の嗜好情報を含む等価報酬関数に不変ではない。
さらに、トークンワイズ更新に必要なPPOは、トラジェクトリワイズ最適化と比較して関数近似とアルゴリズム設計の両方の複雑さをもたらす。
本稿では, 相対フィードバックを用いた強化学習と, 比較報酬に基づいて直接行動する新しい軌道方向政策勾配アルゴリズム, pairwise proximal policy optimization (p3o)を提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
要約すると、本研究は相対的なフィードバックを通じて、LLMを人間の好みに合わせるためのよりシンプルで効果的なアプローチを導入している。
関連論文リスト
- Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Back to Basics: Revisiting REINFORCE Style Optimization for Learning
from Human Feedback in LLMs [29.505270680223003]
ヒューマンフィードバックからの強化学習の形でのAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われている。
近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。
PPO の多くのコンポーネントは RLHF の文脈では不要であり、より単純な REINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:52:34Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Preference as Reward, Maximum Preference Optimization with Importance
Sampling [4.162932802377523]
優先度学習は、言語モデルを人間の価値と整合させるための重要な技術である。
RLHFの処理は複雑で、時間がかかり、不安定である。
本稿では,重要サンプリングの観点から,シンプルで直感的な非政治的選好最適化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - A dynamical clipping approach with task feedback for Proximal Policy
Optimization [31.823327359782162]
最適クリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
以前の研究では、固定された切り抜きがエージェントの探索を制限することが示唆された。
Pb-PPO(Preference based Proximal Policy Optimization)と呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。