論文の概要: Preference Ranking Optimization for Human Alignment
- arxiv url: http://arxiv.org/abs/2306.17492v1
- Date: Fri, 30 Jun 2023 09:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:05:22.394298
- Title: Preference Ranking Optimization for Human Alignment
- Title(参考訳): 人間アライメントのための選好ランキング最適化
- Authors: Feifan Song, Bowen Yu, Minghao Li, Haiyang Yu, Fei Huang, Yongbin Li
and Houfeng Wang
- Abstract要約: 大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
そこで我々は,LLMをBradley-Terry比較と直接整合させるために,PRO(Preference Ranking Optimization)を提案する。
PRO は、人間のアライメントを LLM が生成した $n$ 応答の確率ランクと、これらの応答に対する人間の選好ランクに整合させることに効果的に変換する。
- 参考スコア(独自算出の注目度): 45.84065785597399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often contain misleading content, emphasizing
the need to align them with human values to ensure secur AI systems.
Reinforcement learning from human feedback (RLHF) has been employed to achieve
this alignment by combining a reward model, typically based on Bradley-Terry
paired comparison, with an RL algorithm such as Proximal Policy Optimization
(PPO) to optimize LLM responses. However, RLHF exhibits complexity,
instability, and sensitivity to hyperparameters. In this paper, we propose
Preference Ranking Optimization (PRO) as an alternative to PPO for directly
aligning LLMs with the Bradley-Terry comparison. PRO extends the pairwise
Bradley-Terry comparison to accommodate preference rankings of any length. By
iteratively contrasting the likelihood of generating responses, PRO instructs
the LLM to prioritize the best response while progressively ranking the
remaining responses. In this manner, PRO effectively transforms human alignment
into aligning the probability ranking of $n$ responses generated by LLM with
the preference ranking of humans towards these responses. Experiments have
shown that PRO outperforms existing alignment algorithms, achieving comparable
results to ChatGPT and human responses through automatic-based, reward-based,
GPT-4, and human evaluations. Furthermore, we demonstrate that longer, more
diverse, and higher-quality preference ranking sequences can consistently
enhance the performance of human alignment.
- Abstract(参考訳): 大規模言語モデル(llm)には誤解を招く内容がしばしば含まれており、aiシステムを分離するためにそれらを人間の価値観に合わせる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)は、一般的にBradley-Terryペア比較に基づく報酬モデルと、LLM応答を最適化するPPO(Proximal Policy Optimization)のようなRLアルゴリズムを組み合わせることで、このアライメントを実現するために採用されている。
しかし、RLHFは高パラメータに対する複雑さ、不安定性、感受性を示す。
本稿では,PPOとBradley-Terry比較を直接整合する手法として,PRO(Preference Ranking Optimization)を提案する。
PROは、任意の長さの選好ランクに対応するために、ペアワイズBradley-Terry比較を拡張する。
反復的にレスポンス生成の可能性を対比することにより、proはllmにベストレスポンスを優先し、残りのレスポンスを段階的にランク付けするように指示する。
このように、Pro は人間のアライメントを LLM が生成した $n$ 応答の確率ランクと、これらの応答に対する人間の選好ランクとに効果的に変換する。
PROは既存のアライメントアルゴリズムよりも優れており、自動ベース、報酬ベース、GPT-4、および人間の評価によって、ChatGPTと人間の反応に匹敵する結果が得られる。
さらに、より長く、より多様で、より高品質な選好ランキングシーケンスは、一貫して人間のアライメントのパフォーマンスを向上させることができることを実証する。
関連論文リスト
- Robust Preference Optimization with Provable Noise Tolerance for LLMs [59.04090161300883]
好みのアライメントは、大きな言語モデルが人間の値に適合する応答を生成できるようにすることを目的としている。
レスポンスペアの比較のランキングラベルは 必然的に騒がしい。
そこで本研究では,ノイズ耐性のある優先アライメント手法,すなわちRObust Preference Optimizationを提案する。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。
大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。
本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。
RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文 参考訳(メタデータ) (2024-03-28T14:15:10Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - RLAIF: Scaling Reinforcement Learning from Human Feedback with AI
Feedback [5.469395454378616]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の好みを合わせるのに有効であることが証明されている。
AI Feedback (RLAIF) の RL は、強力なオフザシェルフ LLM を活用して、人間のアノテータの代わりに好みを生成する、有望な代替手段を提供する。
以上の結果から,RLHFのスケーラビリティ限界に対する潜在的な解決策として,RLAIFが人間レベルの性能を実現することが示唆された。
論文 参考訳(メタデータ) (2023-09-01T05:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。