論文の概要: Human Alignment of Large Language Models through Online Preference
Optimisation
- arxiv url: http://arxiv.org/abs/2403.08635v1
- Date: Wed, 13 Mar 2024 15:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:21.988014
- Title: Human Alignment of Large Language Models through Online Preference
Optimisation
- Title(参考訳): オンライン選好による大規模言語モデルのアライメント
最適化
- Authors: Daniele Calandriello, Daniel Guo, Remi Munos, Mark Rowland, Yunhao
Tang, Bernardo Avila Pires, Pierre Harvey Richemond, Charline Le Lan, Michal
Valko, Tianqi Liu, Rishabh Joshi, Zeyu Zheng, Bilal Piot
- Abstract要約: 最近のアライメント手法であるアイデンティティポリシー最適化(IPO)とNash Mirror Descent(Nash-MD)の等価性を示す。
この等価性は、オンラインバージョンのIPOを考えると証明できる。これは、両方の世代がオンラインポリシーによってサンプルされ、訓練された選好モデルによって注釈付けされる時である。
本稿では,一般的なNash-MDアルゴリズムと同様に,オンラインポリシと参照ポリシの混在したデータを生成するIPO-MDアルゴリズムを紹介する。
- 参考スコア(独自算出の注目度): 50.52545798589968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring alignment of language models' outputs with human preferences is
critical to guarantee a useful, safe, and pleasant user experience. Thus, human
alignment has been extensively studied recently and several methods such as
Reinforcement Learning from Human Feedback (RLHF), Direct Policy Optimisation
(DPO) and Sequence Likelihood Calibration (SLiC) have emerged. In this paper,
our contribution is two-fold. First, we show the equivalence between two recent
alignment methods, namely Identity Policy Optimisation (IPO) and Nash Mirror
Descent (Nash-MD). Second, we introduce a generalisation of IPO, named IPO-MD,
that leverages the regularised sampling approach proposed by Nash-MD.
This equivalence may seem surprising at first sight, since IPO is an offline
method whereas Nash-MD is an online method using a preference model. However,
this equivalence can be proven when we consider the online version of IPO, that
is when both generations are sampled by the online policy and annotated by a
trained preference model. Optimising the IPO loss with such a stream of data
becomes then equivalent to finding the Nash equilibrium of the preference model
through self-play. Building on this equivalence, we introduce the IPO-MD
algorithm that generates data with a mixture policy (between the online and
reference policy) similarly as the general Nash-MD algorithm. We compare
online-IPO and IPO-MD to different online versions of existing losses on
preference data such as DPO and SLiC on a summarisation task.
- Abstract(参考訳): 言語モデルのアウトプットと人間の好みとの整合性を確保することは、有用で安全で快適なユーザエクスペリエンスを保証するために重要です。
このように、ヒトのアライメントは近年広く研究されており、Reinforcement Learning from Human Feedback (RLHF)、Direct Policy Optimisation (DPO)、Sequence Likelihood Calibration (SLiC)などの手法が出現している。
本稿では、我々の貢献を2つにまとめる。
まず、最近のアライメント手法であるアイデンティティポリシー最適化(IPO)とNash Mirror Descent(Nash-MD)の等価性を示す。
第2に,Nash-MDが提案する正規化サンプリングアプローチを活用するIPO-MDという,IPOの一般化を導入する。
IPOはオフラインの方法であり、Nash-MDは好みのモデルを使ったオンラインの方法である。
しかし、この等価性は、オンライン版のIPOを考えると証明できる。これは、両方の世代がオンラインポリシーによってサンプリングされ、訓練された選好モデルによって注釈付けされる時である。
このようなデータストリームによるIPO損失の最適化は、セルフプレイを通じて好みモデルのナッシュ均衡を見つけることと同等になる。
この等価性に基づいて、一般的なNash-MDアルゴリズムと同様の(オンラインおよび参照ポリシー間の)混合ポリシーでデータを生成するIPO-MDアルゴリズムを導入する。
我々は、オンラインIPOとIPO-MDを、要約タスクにおけるDPOやSLiCなどの好みデータに対する既存の損失のオンラインバージョンと比較する。
関連論文リスト
- RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization
Method for Alignment of Large Language Models [8.134117126995694]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。
本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。
オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-07T12:31:13Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Preference as Reward, Maximum Preference Optimization with Importance
Sampling [4.162932802377523]
優先度学習は、言語モデルを人間の価値と整合させるための重要な技術である。
RLHFの処理は複雑で、時間がかかり、不安定である。
本稿では,重要サンプリングの観点から,シンプルで直感的な非政治的選好最適化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。