論文の概要: Human Alignment of Large Language Models through Online Preference
Optimisation
- arxiv url: http://arxiv.org/abs/2403.08635v1
- Date: Wed, 13 Mar 2024 15:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:21.988014
- Title: Human Alignment of Large Language Models through Online Preference
Optimisation
- Title(参考訳): オンライン選好による大規模言語モデルのアライメント
最適化
- Authors: Daniele Calandriello, Daniel Guo, Remi Munos, Mark Rowland, Yunhao
Tang, Bernardo Avila Pires, Pierre Harvey Richemond, Charline Le Lan, Michal
Valko, Tianqi Liu, Rishabh Joshi, Zeyu Zheng, Bilal Piot
- Abstract要約: 最近のアライメント手法であるアイデンティティポリシー最適化(IPO)とNash Mirror Descent(Nash-MD)の等価性を示す。
この等価性は、オンラインバージョンのIPOを考えると証明できる。これは、両方の世代がオンラインポリシーによってサンプルされ、訓練された選好モデルによって注釈付けされる時である。
本稿では,一般的なNash-MDアルゴリズムと同様に,オンラインポリシと参照ポリシの混在したデータを生成するIPO-MDアルゴリズムを紹介する。
- 参考スコア(独自算出の注目度): 50.52545798589968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring alignment of language models' outputs with human preferences is
critical to guarantee a useful, safe, and pleasant user experience. Thus, human
alignment has been extensively studied recently and several methods such as
Reinforcement Learning from Human Feedback (RLHF), Direct Policy Optimisation
(DPO) and Sequence Likelihood Calibration (SLiC) have emerged. In this paper,
our contribution is two-fold. First, we show the equivalence between two recent
alignment methods, namely Identity Policy Optimisation (IPO) and Nash Mirror
Descent (Nash-MD). Second, we introduce a generalisation of IPO, named IPO-MD,
that leverages the regularised sampling approach proposed by Nash-MD.
This equivalence may seem surprising at first sight, since IPO is an offline
method whereas Nash-MD is an online method using a preference model. However,
this equivalence can be proven when we consider the online version of IPO, that
is when both generations are sampled by the online policy and annotated by a
trained preference model. Optimising the IPO loss with such a stream of data
becomes then equivalent to finding the Nash equilibrium of the preference model
through self-play. Building on this equivalence, we introduce the IPO-MD
algorithm that generates data with a mixture policy (between the online and
reference policy) similarly as the general Nash-MD algorithm. We compare
online-IPO and IPO-MD to different online versions of existing losses on
preference data such as DPO and SLiC on a summarisation task.
- Abstract(参考訳): 言語モデルのアウトプットと人間の好みとの整合性を確保することは、有用で安全で快適なユーザエクスペリエンスを保証するために重要です。
このように、ヒトのアライメントは近年広く研究されており、Reinforcement Learning from Human Feedback (RLHF)、Direct Policy Optimisation (DPO)、Sequence Likelihood Calibration (SLiC)などの手法が出現している。
本稿では、我々の貢献を2つにまとめる。
まず、最近のアライメント手法であるアイデンティティポリシー最適化(IPO)とNash Mirror Descent(Nash-MD)の等価性を示す。
第2に,Nash-MDが提案する正規化サンプリングアプローチを活用するIPO-MDという,IPOの一般化を導入する。
IPOはオフラインの方法であり、Nash-MDは好みのモデルを使ったオンラインの方法である。
しかし、この等価性は、オンライン版のIPOを考えると証明できる。これは、両方の世代がオンラインポリシーによってサンプリングされ、訓練された選好モデルによって注釈付けされる時である。
このようなデータストリームによるIPO損失の最適化は、セルフプレイを通じて好みモデルのナッシュ均衡を見つけることと同等になる。
この等価性に基づいて、一般的なNash-MDアルゴリズムと同様の(オンラインおよび参照ポリシー間の)混合ポリシーでデータを生成するIPO-MDアルゴリズムを導入する。
我々は、オンラインIPOとIPO-MDを、要約タスクにおけるDPOやSLiCなどの好みデータに対する既存の損失のオンラインバージョンと比較する。
関連論文リスト
- Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。
グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。
KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-03T15:51:04Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。