Fugu-MT 論文翻訳(概要): Preference Ranking Optimization for Human Alignment

論文の概要: Preference Ranking Optimization for Human Alignment

arxiv url: http://arxiv.org/abs/2306.17492v1
Date: Fri, 30 Jun 2023 09:07:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 13:05:22.394298
Title: Preference Ranking Optimization for Human Alignment
Title（参考訳）: 人間アライメントのための選好ランキング最適化
Authors: Feifan Song, Bowen Yu, Minghao Li, Haiyang Yu, Fei Huang, Yongbin Li and Houfeng Wang
Abstract要約: 大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。そこで我々は,LLMをBradley-Terry比較と直接整合させるために,PRO(Preference Ranking Optimization)を提案する。 PRO は、人間のアライメントを LLM が生成した $n$ 応答の確率ランクと、これらの応答に対する人間の選好ランクに整合させることに効果的に変換する。
参考スコア（独自算出の注目度）: 45.84065785597399
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) often contain misleading content, emphasizing the need to align them with human values to ensure secur AI systems. Reinforcement learning from human feedback (RLHF) has been employed to achieve this alignment by combining a reward model, typically based on Bradley-Terry paired comparison, with an RL algorithm such as Proximal Policy Optimization (PPO) to optimize LLM responses. However, RLHF exhibits complexity, instability, and sensitivity to hyperparameters. In this paper, we propose Preference Ranking Optimization (PRO) as an alternative to PPO for directly aligning LLMs with the Bradley-Terry comparison. PRO extends the pairwise Bradley-Terry comparison to accommodate preference rankings of any length. By iteratively contrasting the likelihood of generating responses, PRO instructs the LLM to prioritize the best response while progressively ranking the remaining responses. In this manner, PRO effectively transforms human alignment into aligning the probability ranking of $n$ responses generated by LLM with the preference ranking of humans towards these responses. Experiments have shown that PRO outperforms existing alignment algorithms, achieving comparable results to ChatGPT and human responses through automatic-based, reward-based, GPT-4, and human evaluations. Furthermore, we demonstrate that longer, more diverse, and higher-quality preference ranking sequences can consistently enhance the performance of human alignment.
Abstract（参考訳）: 大規模言語モデル(llm)には誤解を招く内容がしばしば含まれており、aiシステムを分離するためにそれらを人間の価値観に合わせる必要性を強調している。人間のフィードバックからの強化学習(RLHF)は、一般的にBradley-Terryペア比較に基づく報酬モデルと、LLM応答を最適化するPPO(Proximal Policy Optimization)のようなRLアルゴリズムを組み合わせることで、このアライメントを実現するために採用されている。しかし、RLHFは高パラメータに対する複雑さ、不安定性、感受性を示す。本稿では,PPOとBradley-Terry比較を直接整合する手法として,PRO(Preference Ranking Optimization)を提案する。 PROは、任意の長さの選好ランクに対応するために、ペアワイズBradley-Terry比較を拡張する。反復的にレスポンス生成の可能性を対比することにより、proはllmにベストレスポンスを優先し、残りのレスポンスを段階的にランク付けするように指示する。このように、Pro は人間のアライメントを LLM が生成した $n$ 応答の確率ランクと、これらの応答に対する人間の選好ランクとに効果的に変換する。 PROは既存のアライメントアルゴリズムよりも優れており、自動ベース、報酬ベース、GPT-4、および人間の評価によって、ChatGPTと人間の反応に匹敵する結果が得られる。さらに、より長く、より多様で、より高品質な選好ランキングシーケンスは、一貫して人間のアライメントのパフォーマンスを向上させることができることを実証する。

関連論文リスト

A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
Constrain Alignment with Sparse Autoencoders [45.131670081186]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文参考訳（メタデータ） (2024-11-12T07:54:13Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
本稿では,最も情報に富む応答ペアの獲得に焦点をあてた,高品質なトレーニングデータセットのサンプリング戦略を提案する。実験結果から, 異なる応答対を選択することにより, LLMの直列化が促進されることが示唆された。以上の結果から,LLMアライメントの効率が向上し,アノテータの作業の最大65%が省力化できる可能性が示唆された。
論文参考訳（メタデータ） (2024-09-17T22:40:54Z)
Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。 HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文参考訳（メタデータ） (2024-08-18T07:04:16Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。 LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-05-22T10:21:50Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。また,LLMのアライメントを大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。 RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文参考訳（メタデータ） (2024-03-28T14:15:10Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文参考訳（メタデータ） (2023-11-07T15:36:40Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。