論文の概要: FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale
- arxiv url: http://arxiv.org/abs/2601.22146v1
- Date: Thu, 29 Jan 2026 18:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.104922
- Title: FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale
- Title(参考訳): ファインインストラクション: プレトレーニングスケールへのシンセティックインストラクションのスケーリング
- Authors: Ajay Patel, Colin Raffel, Chris Callison-Burch,
- Abstract要約: 大規模言語モデル(LLM)は通常、自己監督型の"次の単語を予測する"目的を通じて事前訓練される。
モデルをユーザにとって有用なものにするために、命令と応答の教師付きトレーニング例からなる、はるかに少ない量の「インストラクションチューニング」データに基づいて、さらに訓練されている。
本稿では,インターネット規模の事前学習文書の知識を,数十億の合成指導と解答訓練ペアに変換する手法を提案する。
- 参考スコア(独自算出の注目度): 56.03294218908334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to limited supervised training data, large language models (LLMs) are typically pre-trained via a self-supervised "predict the next word" objective on a vast amount of unstructured text data. To make the resulting model useful to users, it is further trained on a far smaller amount of "instruction-tuning" data comprised of supervised training examples of instructions and responses. To overcome the limited amount of supervised data, we propose a procedure that can transform the knowledge in internet-scale pre-training documents into billions of synthetic instruction and answer training pairs. The resulting dataset, called FineInstructions, uses ~18M instruction templates created from real user-written queries and prompts. These instruction templates are matched to and instantiated with human-written source documents from unstructured pre-training corpora. With "supervised" synthetic training data generated at this scale, an LLM can be pre-trained from scratch solely with the instruction-tuning objective, which is far more in-distribution with the expected downstream usage of LLMs (responding to user prompts). We conduct controlled token-for-token training experiments and find pre-training on FineInstructions outperforms standard pre-training and other proposed synthetic pre-training techniques on standard benchmarks measuring free-form response quality. Our resources can be found at https://huggingface.co/fineinstructions .
- Abstract(参考訳): 限られた教師付きトレーニングデータのため、大規模言語モデル(LLM)は、通常、大量の構造化されていないテキストデータに対して、自己教師付き"次の単語を予測する"目的を通じて事前訓練される。
結果として得られたモデルをユーザにとって有用なものにするために、命令と応答の教師付きトレーニング例からなる、はるかに少ない量の「インストラクションチューニング」データに基づいて、さらにトレーニングを行う。
教師付きデータの限られた量を克服するために、インターネット規模の事前学習文書の知識を数十億の合成指導と解答訓練ペアに変換する手順を提案する。
FineInstructionsと呼ばれるデータセットは、実際のユーザ記述クエリとプロンプトから生成される約18Mの命令テンプレートを使用する。
これらの命令テンプレートは、構造化されていない事前学習コーパスから人書きのソース文書と一致してインスタンス化される。
この規模で「教師付き」合成訓練データを生成すると、LDMは命令調整目的のみでゼロから事前訓練することができる。
制御されたトークン・フォー・トークン・トレーニング実験を行い、ファインインストラクションの事前学習は標準の事前学習や、標準の標準ベンチマークで提案された合成事前学習技術より優れており、フリーフォームの応答品質を測定している。
私たちのリソースはhttps://huggingface.co/fineinstructions で確認できます。
関連論文リスト
- Aligning Instruction Tuning with Pre-training [61.50161961371844]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs [4.096028601599825]
パブリック使用のための大規模言語モデル(LLM)は、最新のデータと最新の状態を維持するために、継続的な事前トレーニングを必要とする。
本研究では、命令データや微調整を必要とせず、最新の知識と命令追従能力を得るための最も計算効率の良い戦略を見つけることを目的とする。
論文 参考訳(メタデータ) (2024-10-14T17:20:30Z) - Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。