論文の概要: Preference Ranking Optimization for Human Alignment
- arxiv url: http://arxiv.org/abs/2306.17492v2
- Date: Tue, 27 Feb 2024 18:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:49:21.309537
- Title: Preference Ranking Optimization for Human Alignment
- Title(参考訳): 人間アライメントのための選好ランキング最適化
- Authors: Feifan Song, Bowen Yu, Minghao Li, Haiyang Yu, Fei Huang, Yongbin Li
and Houfeng Wang
- Abstract要約: 大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
- 参考スコア(独自算出の注目度): 90.6952059194946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often contain misleading content, emphasizing
the need to align them with human values to ensure secure AI systems.
Reinforcement learning from human feedback (RLHF) has been employed to achieve
this alignment. However, it encompasses two main drawbacks: (1) RLHF exhibits
complexity, instability, and sensitivity to hyperparameters in contrast to SFT.
(2) Despite massive trial-and-error, multiple sampling is reduced to pair-wise
contrast, thus lacking contrasts from a macro perspective. In this paper, we
propose Preference Ranking Optimization (PRO) as an efficient SFT algorithm to
directly fine-tune LLMs for human alignment. PRO extends the pair-wise contrast
to accommodate preference rankings of any length. By iteratively contrasting
candidates, PRO instructs the LLM to prioritize the best response while
progressively ranking the rest responses. In this manner, PRO effectively
transforms human alignment into aligning the probability ranking of n responses
generated by LLM with the preference ranking of humans towards these responses.
Experiments have shown that PRO outperforms baseline algorithms, achieving
comparable results to ChatGPT and human responses through automatic-based,
reward-based, GPT-4, and human evaluations.
- Abstract(参考訳): 大規模言語モデル(llm)は、しばしば誤解を招くコンテンツを含んでおり、安全なaiシステムを確保するために、それらを人間の価値観に合わせる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)がこのアライメントを達成するために採用されている。
しかしながら、(1)RLHFはSFTとは対照的に複雑さ、不安定性、過度パラメータに対する感受性を示す。
2) 大規模な試行錯誤にもかかわらず,複数サンプリングはペアのコントラストに還元され,マクロの観点からのコントラストが欠如している。
本稿では,人間のアライメントを直接微調整するための効率的なSFTアルゴリズムとして,優先度ランキング最適化(PRO)を提案する。
PROは任意の長さの選好ランクに対応するためにペアワイズコントラストを拡張する。
候補を反復的に対比することにより、Prop は LLM に対して、残りの反応を段階的にランク付けしながら、最良の応答を優先順位付けするように指示する。
このように、Proは人間のアライメントを効果的に変換し、LLMが生成したn応答の確率ランキングと人間の選好ランクをこれらの応答に整合させる。
Proはベースラインアルゴリズムより優れており、自動ベース、報酬ベース、GPT-4、および人間の評価によって、ChatGPTと人間の反応に匹敵する結果が得られる。
関連論文リスト
- Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Direct Large Language Model Alignment Through Self-Rewarding Contrastive
Prompt Distillation [47.16091219929373]
コントラッシブ・プロンプト・ペア下での応答対の出力確率を用いて応答選好を評価する手法を提案する。
そこで本研究では,DLMA(Direct Large Model Alignment)の自動アライメント手法を提案する。
実験段階において,本手法は人手による好みデータに頼ることなく,textttRLHF法を超えることができる。
論文 参考訳(メタデータ) (2024-02-19T07:46:40Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [113.01510055986694]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-30T01:23:22Z) - RLAIF: Scaling Reinforcement Learning from Human Feedback with AI
Feedback [5.469395454378616]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の好みを合わせるのに有効であることが証明されている。
AI Feedback (RLAIF) の RL は、強力なオフザシェルフ LLM を活用して、人間のアノテータの代わりに好みを生成する、有望な代替手段を提供する。
以上の結果から,RLHFのスケーラビリティ限界に対する潜在的な解決策として,RLAIFが人間レベルの性能を実現することが示唆された。
論文 参考訳(メタデータ) (2023-09-01T05:53:33Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。