Fugu-MT 論文翻訳(概要): Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data

論文の概要: Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data

arxiv url: http://arxiv.org/abs/2501.13126v1
Date: Tue, 21 Jan 2025 13:12:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 19:17:07.094517
Title: Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data
Title（参考訳）: 選好カリキュラム: LLMは、常に優先データに基づいて事前訓練されるべきである
Authors: Xuemiao Zhang, Liangyu Xu, Feiyu Duan, Yongwei Zhou, Sirui Wang, Jingang Wang, Xunliang Cai,
Abstract要約: 本稿では、LLMが好むデータを常に知覚し、活用して学習し、強化するパープレキシティ差分に基づくPreference Curriculum Learningフレームワークを提案する。試料にどの程度の強度と弱いモデルが適合するかを測るPD測度を導入する。 PD選好関数を用いてモデルを近似し、いつでもLLMのデータ選好を予測することにより、全データのオフライン配置を完了し、中断することなく連続的なトレーニングを確実にする。
参考スコア（独自算出の注目度）: 12.892437592914085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current large language models (LLMs) generally utilize a consistent data distribution throughout the entire pretraining process. However, as the model's ability improves, it intuitively should be pretrained with differentiated data. To achieve it, we propose the Perplexity Difference based Preference Curriculum learning (PDPC) framework, which always perceives and uses the data preferred by LLMs to train and boost them. Firstly, we introduce the PD metric to measure the difference in how well strong and weak models fit the samples. Samples with high PD are more challenging for weak models to learn and are more suitable to be arranged in the later stage of pretraining. Secondly, we propose the PD preference function to approximate the model and predict the data preference of the LLM at any time, so as to complete the arrangement of the entire data offline and ensure continuous training without interruption. Experimental results on 1.3B and 3B models demonstrate that our PDPC significantly surpasses baselines. Notably, the 3B model achieved more substantial gains, with an increased average accuracy of over 4.1% across various benchmarks.
Abstract（参考訳）: 現在の大規模言語モデル(LLM)は、通常、事前訓練プロセス全体を通して一貫したデータ分散を利用する。しかし、モデルの性能が向上するにつれて、直感的に差別化されたデータで事前訓練されるべきである。そこで我々は, LLM が好むデータを常に知覚し, 活用して学習し, 強化する Perplexity difference based Preference Curriculum Learning (PDPC) フレームワークを提案する。まず, 試料の強みと弱みの相違を測るために, PD測度を導入する。 PDの高いサンプルは弱いモデルでは学習が困難であり、事前訓練の後期に配置するのに適している。第2に、PD選好関数を提案し、モデルを近似し、いつでもLLMのデータ選好を予測することにより、全データのオフライン配置を完了し、中断することなく連続的なトレーニングを確実にする。 1.3Bモデルと3Bモデルによる実験結果から,PDPCがベースラインをはるかに超えることが示された。特に、3Bモデルは様々なベンチマークで平均精度が4.1%以上向上した。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
LLM Data Selection and Utilization via Dynamic Bi-level Optimization [100.20933466418786]
本研究では,各バッチ内で選択したデータの重み付けを調整し,トレーニング中の動的データ利用を実現するための新しいデータ重み付けモデル(DWM)を提案する。実験により,DWMはランダムに選択されたデータを用いて訓練されたモデルの性能を向上させることが示された。さらに、トレーニング中にモデルのデータ嗜好がどのように進化するかを分析し、トレーニング中のモデルのデータ嗜好に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-07-22T02:47:12Z)
Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文参考訳（メタデータ） (2025-01-25T07:21:50Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文参考訳（メタデータ） (2024-09-09T17:23:29Z)
Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文参考訳（メタデータ） (2024-05-29T21:29:44Z)
Prompt Public Large Language Models to Synthesize Data for Private On-device Applications [5.713077600587505]
本稿では,DP と FL でトレーニングしたデバイス上での言語モデルにおいて,公開データに基づいてトレーニングした大規模言語モデル (LLM) が事前学習データの質を向上する方法について検討する。合成データセットに事前学習したモデルでは, 単語予測精度が19.0%, 22.8%向上した。実験では, プライベートデータにアクセスしなくても, プライベートデータに近いデータを合成する上でのLCMの強みを実証した。
論文参考訳（メタデータ） (2024-04-05T19:14:14Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
D4: Improving LLM Pretraining via Document De-Duplication and Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文参考訳（メタデータ） (2023-08-23T17:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。