論文の概要: Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts
- arxiv url: http://arxiv.org/abs/2402.10958v1
- Date: Mon, 12 Feb 2024 22:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-25 17:08:04.237896
- Title: Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts
- Title(参考訳): 相対的選好最適化: IdenticalおよびDiverse Prompt間の対比応答によるLLMアライメントの強化
- Authors: Yueqin Yin, Zhendong Wang, Yi Gu, Hai Huang, Weizhu Chen, Mingyuan
Zhou
- Abstract要約: Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
- 参考スコア(独自算出の注目度): 100.76940486636121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of large language models (LLMs), aligning models with the
diverse preferences of users is a critical challenge. Direct Preference
Optimization (DPO) has played a key role in this area. It works by using pairs
of preferences derived from the same prompts, and it functions without needing
an additional reward model. However, DPO does not fully reflect the complex
nature of human learning, which often involves understanding contrasting
responses to not only identical but also similar questions. To overcome this
shortfall, we propose Relative Preference Optimization (RPO). RPO is designed
to discern between more and less preferred responses derived from both
identical and related prompts. It introduces a contrastive weighting mechanism,
enabling the tuning of LLMs using a broader range of preference data, including
both paired and unpaired sets. This approach expands the learning capabilities
of the model, allowing it to leverage insights from a more varied set of
prompts. Through empirical tests, including dialogue and summarization tasks,
and evaluations using the AlpacaEval2.0 leaderboard, RPO has demonstrated a
superior ability to align LLMs with user preferences and to improve their
adaptability during the training process. The PyTorch code necessary to
reproduce the results presented in the paper will be made available on GitHub
for public access.
- Abstract(参考訳): 大規模言語モデル(llm)の分野では、モデルをユーザの多様な好みに合わせることが重要な課題である。
この分野ではdpo(direct preference optimization)が重要な役割を果たしている。
同じプロンプトから派生した選好のペアを使用することで動作し、追加の報酬モデルなしで機能する。
しかし、DPOは人間の学習の複雑な性質を完全に反映していない。
この欠点を克服するために、相対的優先度最適化(RPO)を提案する。
RPOは、同一のプロンプトと関連するプロンプトの両方から、より好まれる反応を識別するように設計されている。
コントラスト重み付け機構を導入し、ペアセットとアンペアセットの両方を含む幅広い好みデータを用いてLLMのチューニングを可能にする。
このアプローチはモデルの学習能力を拡張し、より多様なプロンプトからの洞察を活用できる。
対話や要約タスク、AlpacaEval2.0のリーダーボードを用いた評価などの経験的テストを通じて、RPOはLLMをユーザの好みに合わせる優れた能力を示し、トレーニングプロセスの適応性を向上させる。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
関連論文リスト
- Strengthening Multimodal Large Language Model with Bootstrapped
Preference Optimization [26.558671454453993]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文 参考訳(メタデータ) (2024-03-13T17:29:45Z) - Reinforcement Learning from Human Feedback with Active Queries [67.27150911254155]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発されたクエリ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [63.69441506085566]
本稿では,リストワイズ優先最適化(LiPO)フレームワークについて述べる。このフレームワークでは,評価可能な応答のランクリストから,ポリシーをより効率的に学習することができる。
2つの選好アライメントタスクにおいて,LiPO-lambdaがDPOとSLiCよりも明確なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences
without Tuning and Feedback [72.21755067005049]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Active Preference Inference using Language Models and Probabilistic
Reasoning [15.198912276468198]
本稿では,大規模言語モデルによるユーザの嗜好の推測を支援する推論時アルゴリズムを提案する。
我々のアルゴリズムは, LLM を誘導することで条件分布が定義される確率モデルを用いている。
実商品を用いた簡易な対話型Webショッピング設定の結果, エントロピー低減アルゴリズムを備えたLCMは, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T09:58:54Z) - Group Preference Optimization: Few-Shot Alignment of Large Language
Models [31.991620847943036]
グループ優先最適化(Group Preference Optimization)は、言語モデルを数ショットで個々のグループを選好する。
大規模言語モデルを用いた厳密な評価により, GPOの有効性を実証的に検証した。
以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論のリソースを少なくする。
論文 参考訳(メタデータ) (2023-10-17T18:41:57Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Read-only Prompt Optimization for Vision-Language Few-shot Learning [20.66798356082751]
学習可能なプロンプトは、自己アテンションモジュールの内部表現に影響を与える可能性がある。
本稿では,リードオンリーのプロンプト最適化(RPO)を提案する。
実験により, RPOはCLIPとCoCoOpより, ベース・ツー・ニューな一般化とドメインの一般化に優れることが示された。
論文 参考訳(メタデータ) (2023-08-29T01:22:30Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。