Fugu-MT 論文翻訳(概要): Direct Preference Optimization with an Offset

論文の概要: Direct Preference Optimization with an Offset

arxiv url: http://arxiv.org/abs/2402.10571v1
Date: Fri, 16 Feb 2024 10:55:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 16:39:22.873312
Title: Direct Preference Optimization with an Offset
Title（参考訳）: オフセットによる直接選好最適化
Authors: Afra Amini, Tim Vieira, Ryan Cotterell
Abstract要約: 直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
参考スコア（独自算出の注目度）: 66.0827992149128
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Direct preference optimization (DPO) is a successful fine-tuning strategy for aligning large language models with human preferences without the need to train a reward model or employ reinforcement learning. DPO, as originally formulated, relies on binary preference data and fine-tunes a language model to increase the likelihood of a preferred response over a dispreferred response. However, not all preference pairs are equal: while in some cases the preferred response is only slightly better than the dispreferred response, there can be a stronger preference for one response when, for example, the other response includes harmful or toxic content. In this paper, we propose a generalization of DPO, termed DPO with an offset (ODPO), that does not treat every preference pair equally during fine-tuning. Intuitively, ODPO requires the difference between the likelihood of the preferred and dispreferred response to be greater than an offset value. The offset is determined based on the extent to which one response is preferred over another. Our experiments on various tasks suggest that ODPO significantly outperforms DPO in aligning language models, especially when the number of preference pairs is limited.
Abstract（参考訳）: 直接選好最適化(DPO)は、報酬モデルのトレーニングや強化学習を必要とせずに、大きな言語モデルを人間の選好に合わせるための微調整戦略として成功している。 DPOはもともと定式化され、二進選好データと言語モデルを微調整して、好ましくない応答よりも好ましくない応答の可能性を高める。しかし、全ての選好対が等しいわけではない:ある場合には、好ましくない反応よりわずかに良いが、例えば、他の反応が有害または有害な内容を含む場合、一つの反応に対してより強い選好がある。本稿では,DPOとオフセット(ODPO)を併用したDPOの一般化を提案する。直感的には、ODPOは、好ましくない応答と好ましくない応答の確率の差がオフセット値より大きいことを要求する。オフセットは、ある応答が他の応答よりも優先される範囲に基づいて決定される。様々なタスクに対する実験により、ODPOは言語モデル、特に好みペアの数が限られている場合において、DPOを著しく上回っていることが示唆された。

関連論文リスト

Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering [5.568436850698628]
Sem-DPOは意味的一貫性を維持しながら、その単純さと効率を維持するDPOの亜種である。本研究は,Sem-DPOが原文の有界近傍で学習のプロンプトを継続していることを示す。 3つの標準テキスト-画像のプロンプト-最適化ベンチマークと2つの言語モデルにおいて、Sem-DPOはDPOよりもCLIPの類似度が8-12%高く、5-9%高いHPSv2.1、PickScore)。
論文参考訳（メタデータ） (2025-07-27T05:20:13Z)
Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。 RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文参考訳（メタデータ） (2025-05-28T09:44:27Z)
Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization [17.801062522027266]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なフレームワークとして登場した。既存の方法は応答における全てのトークンに等しい重要性を割り当て、人間はより意味のある部分に焦点を当てる。直接textbfPreference textbfOptimization (OTPO) を強化するための textbfOptimal textbfTransport を用いたトークン重み付け方式を提案する。
論文参考訳（メタデータ） (2025-05-24T14:44:15Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees [14.84379332031731]
本稿では、選好木からペア化された選好応答をサンプリングしないツリー選好最適化(TPO)を導入する。 TPOは、言語モデルのアライメントを、優先順位リストランキング問題として定式化し、ポリシーは、ランク付けされた優先順位リストからより効果的に学習することができる。
論文参考訳（メタデータ） (2024-10-10T22:22:05Z)
mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文参考訳（メタデータ） (2024-06-17T17:59:58Z)
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文参考訳（メタデータ） (2024-06-17T17:55:38Z)
Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives [0.5120567378386615]
大規模言語モデル(LLM)を協調するハイブリッドアプローチを提案する。 DPO の暗黙的な報酬分解に対する単純な拡張により、任意の補助報酬の集合を最大化するために LLM をチューニングできる。提案手法であるHybrid Preference Optimization (HPO) は,ユーザの好みと補助的な設計目的の両方に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2024-05-28T08:35:48Z)
Annotation-Efficient Preference Optimization for Language Model Alignment [3.726173629675064]
制限付きアノテーション予算を使って効果的な選好データセットを作成する方法を示す。 AEPOを用いてDPO(Direct Preference Optimization)の性能を評価し、同じアノテーション予算で標準DPOを用いてトレーニングしたモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-22T11:23:03Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。また,LLMのアライメントを大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。 DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文参考訳（メタデータ） (2024-02-15T16:00:58Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss [33.750604185218336]
本稿では,既存の2値フィードバック手法であるCrynge Lossをペアの選好設定に一般化する方法について述べる。 AlpacaFarmベンチマークでは,PPOやDPOといった最先端の選好最適化アルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-12-27T18:53:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。