論文の概要: Refined Direct Preference Optimization with Synthetic Data for
Behavioral Alignment of LLMs
- arxiv url: http://arxiv.org/abs/2402.08005v1
- Date: Mon, 12 Feb 2024 19:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:55:48.396995
- Title: Refined Direct Preference Optimization with Synthetic Data for
Behavioral Alignment of LLMs
- Title(参考訳): LLMの振舞いアライメントのための合成データを用いた修正直接選好最適化
- Authors: V\'ictor Gallego
- Abstract要約: 本稿では,人手による注釈付きデータを必要としない大規模言語モデル(LLM)の振舞いアライメントを改善する手法であるEmphrefined Direct Preference Optimization (rDPO)を紹介する。
この方法は、教師のLLMによる自己批判を用いて合成データを作成し、その後、一般化されたDPO損失関数を利用して、学生のLLMを消毒する。
損失関数は、合成データの品質を改善するために追加の外部報酬モデルを含むため、合成データセットの潜在的なノイズに対してrDPOは堅牢である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce \emph{refined Direct Preference Optimization}
(rDPO), a method for improving the behavioral alignment of Large Language
Models (LLMs) without the need for human-annotated data. The method involves
creating synthetic data using self-critique prompting by a teacher LLM and then
utilising a generalized DPO loss function to distil to a student LLM. The loss
function incorporates an additional external reward model to improve the
quality of synthetic data, making rDPO robust to potential noise in the
synthetic dataset. rDPO is shown to be effective in a diverse set of
behavioural alignment tasks, such as improved safety, robustness against
role-playing, and reduced sycophancy. Code to be released at
https://github.com/vicgalle/refined-dpo.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の行動アライメントを改善する手法として,人間による注釈付きデータを必要としない 'emph{refined Direct Preference Optimization} (rDPO) を提案する。
教師llmによる自己批判的プロンプトを用いて合成データを作成し、一般化されたdpo損失関数を利用して学生llmにディスティルする。
損失関数は、合成データの品質を改善するために追加の外部報酬モデルを含むため、合成データセットの潜在的なノイズに対してrDPOは堅牢である。
rDPOは、安全性の向上、ロールプレイングに対する堅牢性、筋力低下など、多様な行動アライメントタスクに有効であることが示されている。
コードはhttps://github.com/vicgalle/refined-dpoでリリースできる。
関連論文リスト
- Group-wise Prompting for Synthetic Tabular Data Generation using Large Language Models [39.347666307218006]
本研究では,合成データを生成するために,Large Language Models (LLMs) を用いた簡易かつ効果的な手法を提案する。
本稿では,LLMのテキスト内学習機能を活用した,CSV形式のグループワイドプロンプト手法を提案する。
提案したランダムな単語置換戦略は,単調なカテゴリー値の扱いを大幅に改善する。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - Exploring LLMs as a Source of Targeted Synthetic Textual Data to Minimize High Confidence Misclassifications [9.982616173090264]
本研究では,データ拡張のための大規模言語モデル (LLM) の利用を,分類タスク中に高い信頼度で誤った予測を行うNLPモデルの問題に対する潜在的な解決策として検討する。
緩和のために、人間またはLLMは、高い信頼性の誤分類の自然言語特性を提供し、合成データを生成し、トレーニングセットを拡張するのに使用される。
本研究では,3つの分類課題に対するアプローチを広範囲に評価し,信頼性の高い誤分類の数を減らし,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient
Debiasing of LLMs [69.27030571729392]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Adversarial Preference Optimization [30.937079544053482]
より効率的な人選好最適化を目指すために, 対人選好最適化(APO)フレームワークを提案する。
APOは補助性と無害性の観点から,ベースライン手法のアライメント性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks [61.51515750218049]
本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
小型ソフト・プロンプトのみを訓練するPrompt-based Data Augmentation Model (PromDA)を提案する。
PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
論文 参考訳(メタデータ) (2022-02-25T05:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。