論文の概要: Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing
- arxiv url: http://arxiv.org/abs/2406.05534v1
- Date: Sat, 8 Jun 2024 17:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 19:16:08.542785
- Title: Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing
- Title(参考訳): オンラインDPO: 高速チャットによるオンラインダイレクト参照最適化
- Authors: Biqing Qi, Pengfei Li, Fangyuan Li, Junqi Gao, Kaiyan Zhang, Bowen Zhou,
- Abstract要約: 直接選好最適化(DPO)は、人間の選好データセットを直接トレーニングすることで、大きな言語モデルと人間の価値との整合性を改善する。
高速かつ低速な追従によって競合をシミュレートするオンライン高速追従DPO(OFS-DPO)を提案する。
OFS-DPOはドメイン内アライメントにおいてDPOより優れており、COFS-DPOはドメイン間連続学習のシナリオにおいて優れていることを示す。
- 参考スコア(独自算出の注目度): 19.093688673176366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) improves the alignment of large language models (LLMs) with human values by training directly on human preference datasets, eliminating the need for reward models. However, due to the presence of cross-domain human preferences, direct continual training can lead to catastrophic forgetting, limiting DPO's performance and efficiency. Inspired by intraspecific competition driving species evolution, we propose a Online Fast-Slow chasing DPO (OFS-DPO) for preference alignment, simulating competition through fast and slow chasing among models to facilitate rapid adaptation. Specifically, we first derive the regret upper bound for online learning, validating our motivation with a min-max optimization pattern. Based on this, we introduce two identical modules using Low-rank Adaptive (LoRA) with different optimization speeds to simulate intraspecific competition, and propose a new regularization term to guide their learning. To further mitigate catastrophic forgetting in cross-domain scenarios, we extend the OFS-DPO with LoRA modules combination strategy, resulting in the Cross domain Online Fast-Slow chasing DPO (COFS-DPO). This method leverages linear combinations of fast modules parameters from different task domains, fully utilizing historical information to achive continual value alignment. Experimental results show that OFS-DPO outperforms DPO in in-domain alignment, while COFS-DPO excels in cross-domain continual learning scenarios.
- Abstract(参考訳): 直接選好最適化(DPO)は、人間の選好データセットを直接トレーニングすることで、大きな言語モデル(LLM)と人間の価値との整合性を改善し、報酬モデルの必要性を排除する。
しかし、ドメイン間の人間の嗜好があるため、直接連続的なトレーニングは、DPOのパフォーマンスと効率を制限し、破滅的な忘れを招きかねない。
本研究は,種種進化に触発されたオンライン高速追従DPO(Online Fast-Slow chasing DPO, OFS-DPO)を提案する。
具体的には、まずオンライン学習における後悔の上限を導出し、min-max最適化パターンでモチベーションを検証する。
そこで本研究では,Low-rank Adaptive (LoRA) を用いた2つの同一モジュールを提案する。
クロスドメインシナリオにおける破滅的な忘れを緩和するため、LORAモジュールの組み合わせ戦略によりOFS-DPOを拡張し、Cross Domain Online Fast-Slow chasing DPO (COFS-DPO) を実現する。
この方法は、異なるタスク領域からの高速モジュールパラメータの線形結合を利用して、履歴情報を完全に活用し、連続的な値アライメントを実現する。
実験の結果,OFS-DPOはドメイン内アライメントにおいてDPOより優れており,COFS-DPOはドメイン間連続学習において優れていた。
関連論文リスト
- Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives [0.5120567378386615]
大規模言語モデル(LLM)を協調するハイブリッドアプローチを提案する。
DPO の暗黙的な報酬分解に対する単純な拡張により、任意の補助報酬の集合を最大化するために LLM をチューニングできる。
提案手法であるHybrid Preference Optimization (HPO) は,ユーザの好みと補助的な設計目的の両方に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
現在の学習手法の多くは、学習者にとって最適な戦略を導き出すために、値関数のような積分的アイデンティティに焦点を当てている。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。