論文の概要: Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization
- arxiv url: http://arxiv.org/abs/2404.00530v1
- Date: Sun, 31 Mar 2024 02:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:10:31.586582
- Title: Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization
- Title(参考訳): 悪いAppleと良いオレンジの比較: 共同選好最適化による大規模言語モデルの調整
- Authors: Hritik Bansal, Ashima Suvarna, Gantavya Bhatt, Nanyun Peng, Kai-Wei Chang, Aditya Grover,
- Abstract要約: 大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 105.3612692153615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common technique for aligning large language models (LLMs) relies on acquiring human preferences by comparing multiple generations conditioned on a fixed context. This only leverages the pairwise comparisons when the generations are placed in an identical context. However, such conditional rankings often fail to capture the complex and multidimensional aspects of human preferences. In this work, we revisit the traditional paradigm of preference acquisition and propose a new axis that is based on eliciting preferences jointly over the instruction-response pairs. While prior preference optimizations are designed for conditional ranking protocols (e.g., DPO), our proposed preference acquisition protocol introduces DOVE, a new preference optimization objective that upweights the joint probability of the chosen instruction-response pair over the rejected instruction-response pair. Interestingly, we find that the LLM trained with joint instruction-response preference data using DOVE outperforms the LLM trained with DPO by 5.2% and 3.3% win-rate for the summarization and open-ended dialogue datasets, respectively. Our findings reveal that joint preferences over instruction and response pairs can significantly enhance the alignment of LLMs by tapping into a broader spectrum of human preference elicitation. The data and code is available at https://github.com/Hritikbansal/dove.
- Abstract(参考訳): 大きな言語モデル(LLM)を整列させる一般的な手法は、固定された文脈で条件付けられた複数の世代を比較することによって、人間の好みを取得することに依存する。
これは、世代が同じ文脈に置かれるときにのみペアワイズ比較を利用する。
しかし、そのような条件付きランキングは、人間の嗜好の複雑で多次元的な側面を捉えるのに失敗することが多い。
本研究では,従来の嗜好獲得のパラダイムを再考し,指示応答対に対して協調して嗜好を抽出する新たな軸を提案する。
事前の選好最適化は条件付きランキングプロトコル(例えばDPO)のために設計されているが、提案プロトコルではDOVEを導入している。
興味深いことに、DOVEを用いた共同指示応答選好データを用いて訓練されたLLMは、要約とオープンエンドの対話データセットに対して、DPOで訓練したLLMを5.2%、ウィンレート3.3%で上回っている。
以上の結果から,命令対と応答対に対する共同選好は,ヒト選好の幅広いスペクトルをタップすることで,LLMのアライメントを著しく向上させることができることが明らかとなった。
データとコードはhttps://github.com/Hritikbansal/dove.comで公開されている。
関連論文リスト
- VPO: Leveraging the Number of Votes in Preference Optimization [5.200545764106177]
本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。
我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-30T10:39:34Z) - Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。
OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation [45.21355506181213]
コントラッシブ・プロンプト・ペア下での応答対の出力確率を用いて応答選好を評価する手法を提案する。
そこで本研究では,DLMA(Direct Large Model Alignment)の自動アライメント手法を提案する。
実験段階において,本手法は人手による好みデータに頼ることなく,textttRLHF法を超えることができる。
論文 参考訳(メタデータ) (2024-02-19T07:46:40Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。