論文の概要: Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data
- arxiv url: http://arxiv.org/abs/2501.13126v1
- Date: Tue, 21 Jan 2025 13:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:31.163135
- Title: Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data
- Title(参考訳): 選好カリキュラム: LLMは、常に優先データに基づいて事前訓練されるべきである
- Authors: Xuemiao Zhang, Liangyu Xu, Feiyu Duan, Yongwei Zhou, Sirui Wang, Jingang Wang, Xunliang Cai,
- Abstract要約: 本稿では、LLMが好むデータを常に知覚し、活用して学習し、強化するパープレキシティ差分に基づくPreference Curriculum Learningフレームワークを提案する。
試料にどの程度の強度と弱いモデルが適合するかを測るPD測度を導入する。
PD選好関数を用いてモデルを近似し、いつでもLLMのデータ選好を予測することにより、全データのオフライン配置を完了し、中断することなく連続的なトレーニングを確実にする。
- 参考スコア(独自算出の注目度): 12.892437592914085
- License:
- Abstract: Current large language models (LLMs) generally utilize a consistent data distribution throughout the entire pretraining process. However, as the model's ability improves, it intuitively should be pretrained with differentiated data. To achieve it, we propose the Perplexity Difference based Preference Curriculum learning (PDPC) framework, which always perceives and uses the data preferred by LLMs to train and boost them. Firstly, we introduce the PD metric to measure the difference in how well strong and weak models fit the samples. Samples with high PD are more challenging for weak models to learn and are more suitable to be arranged in the later stage of pretraining. Secondly, we propose the PD preference function to approximate the model and predict the data preference of the LLM at any time, so as to complete the arrangement of the entire data offline and ensure continuous training without interruption. Experimental results on 1.3B and 3B models demonstrate that our PDPC significantly surpasses baselines. Notably, the 3B model achieved more substantial gains, with an increased average accuracy of over 4.1% across various benchmarks.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は、通常、事前訓練プロセス全体を通して一貫したデータ分散を利用する。
しかし、モデルの性能が向上するにつれて、直感的に差別化されたデータで事前訓練されるべきである。
そこで我々は, LLM が好むデータを常に知覚し, 活用して学習し, 強化する Perplexity difference based Preference Curriculum Learning (PDPC) フレームワークを提案する。
まず, 試料の強みと弱みの相違を測るために, PD測度を導入する。
PDの高いサンプルは弱いモデルでは学習が困難であり、事前訓練の後期に配置するのに適している。
第2に、PD選好関数を提案し、モデルを近似し、いつでもLLMのデータ選好を予測することにより、全データのオフライン配置を完了し、中断することなく連続的なトレーニングを確実にする。
1.3Bモデルと3Bモデルによる実験結果から,PDPCがベースラインをはるかに超えることが示された。
特に、3Bモデルは様々なベンチマークで平均精度が4.1%以上向上した。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Optimizing V-information for Self-Supervised Pre-training Data-Effective Medical Foundation Models [15.413974936297082]
大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。
基礎モデル事前学習のための貴重なサンプルを選択するために、データ効率のよい学習手法が導入された。
実世界の医療領域におけるV情報の最適化のための最適なデータ効率学習手法を開発した。
論文 参考訳(メタデータ) (2024-08-13T10:28:54Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Prompt Public Large Language Models to Synthesize Data for Private On-device Applications [5.713077600587505]
本稿では,DP と FL でトレーニングしたデバイス上での言語モデルにおいて,公開データに基づいてトレーニングした大規模言語モデル (LLM) が事前学習データの質を向上する方法について検討する。
合成データセットに事前学習したモデルでは, 単語予測精度が19.0%, 22.8%向上した。
実験では, プライベートデータにアクセスしなくても, プライベートデータに近いデータを合成する上でのLCMの強みを実証した。
論文 参考訳(メタデータ) (2024-04-05T19:14:14Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。