論文の概要: Self-Boosting Large Language Models with Synthetic Preference Data
- arxiv url: http://arxiv.org/abs/2410.06961v1
- Date: Wed, 9 Oct 2024 14:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 23:17:38.076330
- Title: Self-Boosting Large Language Models with Synthetic Preference Data
- Title(参考訳): 合成選好データを用いた自己発声大言語モデル
- Authors: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei,
- Abstract要約: モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。
4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。
SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
- 参考スコア(独自算出の注目度): 97.94185115047999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.
- Abstract(参考訳): 人間の好みに合わせて、Large Language Models (LLMs) は、正直で無害で役に立つ応答を生成するために大きく進歩している。
しかし, 高品質な嗜好データ収集は資源集約的かつ創造性に富むプロセスであり, 特にLCMの継続的な改善に寄与する。
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。
SynPOは、自己プロンプト生成器が多様なプロンプトを生成し、応答改善器が徐々にモデル応答を洗練させる反復機構を採用している。
このアプローチは、LSMに対して、自身の出力に対する生成的報酬を自律的に学習するように訓練し、プロンプトと人間の好みの大規模なアノテーションを不要にする。
4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは、AlpacaEval 2.0とArenaHardで22.1%以上の勝利率向上を達成した。
同時に、SynPOは様々なタスクにおけるLLMの一般的な性能を改善し、よく認識されたOpen LLMリーダーボードの平均スコアが3.2から5.0に向上した。
関連論文リスト
- Advancing Large Language Model Attribution through Self-Improving [32.77250400438304]
大規模言語モデル(LLM)の帰属能力向上のためのフレームワークSTARTを提案する。
STARTは、サンプリングされた応答から構築されたきめ細かい選好監視信号を反復的に利用し、堅牢で包括的で帰属可能な生成を促進する。
ロングフォームQAとマルチステップ推論をカバーする3つのオープンドメイン質問回答データセットの実験は、平均25.13%のパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-10-17T07:55:33Z) - Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation [62.9933120822879]
RMBoostは、新しい合成選好データ生成パラダイムである。
優先ペアが意図的に構築されているため、ラベリングノイズを低減する。
これは4つの異なる報酬モデルのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-22T19:21:55Z) - UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback [21.858896845159208]
大規模言語モデル(LLM)は、視覚的に関連する設計をコンパイルし、生成するUIコードを生成するのに苦労する。
生成を改善するための既存のアプローチは、高価な人間のフィードバックやプロプライエタリなモデルを蒸留することに依存している。
提案手法は,既存のLLMから始まり,大規模合成データセットを自己生成することにより,改良されたモデルを反復的に生成する。
論文 参考訳(メタデータ) (2024-06-11T21:53:46Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Aligning Large Language Models through Synthetic Feedback [43.84431341195111]
本研究では,ヒトのアノテーションに依存しない合成フィードバックを用いたアライメント学習フレームワークを提案する。
人間の評価では,我々のモデルはアルパカとドリー-v2にそれぞれ55.0%,58.5%が好まれる。
論文 参考訳(メタデータ) (2023-05-23T06:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。