論文の概要: Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss
- arxiv url: http://arxiv.org/abs/2312.16682v2
- Date: Mon, 22 Apr 2024 22:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:25:53.151357
- Title: Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss
- Title(参考訳): Pairwise Cringe Lossによる反復的推論最適化
- Authors: Jing Xu, Andrew Lee, Sainbayar Sukhbaatar, Jason Weston,
- Abstract要約: 本稿では,既存の2値フィードバック手法であるCrynge Lossをペアの選好設定に一般化する方法について述べる。
AlpacaFarmベンチマークでは,PPOやDPOといった最先端の選好最適化アルゴリズムよりも優れていた。
- 参考スコア(独自算出の注目度): 33.750604185218336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practitioners commonly align large language models using pairwise preferences, i.e., given labels of the type response A is preferred to response B for a given input. Perhaps less commonly, methods have also been developed for binary feedback, i.e. training models given labels of type response A is good or bad. We show how an existing performant binary feedback method, the Cringe Loss (Adolphs et al., 2022), can be generalized to the pairwise preference setting using a simple soft margin extension. Pairwise Cringe Loss is straightforward to implement and efficient to train, and we find it outperforms state-of-the-art preference optimization algorithms such as PPO and DPO on the AlpacaFarm benchmark. We show that iterations of training of our model are important for improved results, and that we can generalize DPO to Iterative DPO in the same way.
- Abstract(参考訳): 実践者は、ペアの好みを使って大きな言語モデルをアライメントする。つまり、型応答 A のラベルは、与えられた入力に対して B を返すのが好まれる。
おそらくより一般的には、バイナリフィードバックのためのメソッドも開発されている。つまり、型応答Aのラベルが良いか悪いかが与えられたトレーニングモデルである。
本稿では,既存の2値フィードバック手法であるCrynge Loss(Adolphs et al , 2022)を,単純なソフトマージン拡張を用いてペアの選好設定に一般化する方法を示す。
Pairwise Cringe Lossは簡単に実装でき、訓練も効率的で、AlpacaFarmベンチマークではPPOやDPOといった最先端の選好最適化アルゴリズムよりも優れています。
結果の改善にはモデルのトレーニングの反復が重要であること,DPOを反復的DPOに同じように一般化できること,などが示される。
関連論文リスト
- D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Direct Preference Optimization with an Offset [66.0827992149128]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文 参考訳(メタデータ) (2024-02-16T10:55:38Z) - Active Preference Learning for Large Language Models [13.211063836237468]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [63.69441506085566]
本稿では,リストワイズ優先最適化(LiPO)フレームワークについて述べる。このフレームワークでは,評価可能な応答のランクリストから,ポリシーをより効率的に学習することができる。
2つの選好アライメントタスクにおいて,LiPO-lambdaがDPOとSLiCよりも明確なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Adversarial Preference Optimization [30.937079544053482]
より効率的な人選好最適化を目指すために, 対人選好最適化(APO)フレームワークを提案する。
APOは補助性と無害性の観点から,ベースライン手法のアライメント性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。