論文の概要: Synthetic bootstrapped pretraining
- arxiv url: http://arxiv.org/abs/2509.15248v1
- Date: Wed, 17 Sep 2025 22:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.816721
- Title: Synthetic bootstrapped pretraining
- Title(参考訳): 合成ブートストラッププレトレーニング
- Authors: Zitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang,
- Abstract要約: 本稿では,SBP(Synthetic Bootstrapped Pretraining)について述べる。
SBPはまず、事前学習データセットから文書間の関係のモデルを学び、次にそれを利用して巨大な新しいコーパスを合成する。
SBPは高い繰り返しベースラインを継続的に改善し、オラクル上界で達成可能な性能改善のかなりの部分を提供する。
- 参考スコア(独自算出の注目度): 52.92577542049469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Synthetic Bootstrapped Pretraining (SBP), a language model (LM) pretraining procedure that first learns a model of relations between documents from the pretraining dataset and then leverages it to synthesize a vast new corpus for joint training. While the standard pretraining teaches LMs to learn causal correlations among tokens within a single document, it is not designed to efficiently model the rich, learnable inter-document correlations that can potentially lead to better performance. We validate SBP by designing a compute-matched pretraining setup and pretrain a 3B-parameter model on up to 1T tokens from scratch. We find SBP consistently improves upon a strong repetition baseline and delivers a significant fraction of performance improvement attainable by an oracle upper bound with access to 20x more unique data. Qualitative analysis reveals that the synthesized documents go beyond mere paraphrases -- SBP first abstracts a core concept from the seed material and then crafts a new narration on top of it. Besides strong empirical performance, SBP admits a natural Bayesian interpretation: the synthesizer implicitly learns to abstract the latent concepts shared between related documents.
- Abstract(参考訳): 本稿では、まず、事前学習データセットから文書間の関係モデルを学習し、それを活用して、膨大な新しいコーパスを共同トレーニングのために合成する言語モデル(LM)事前学習手順であるSBPを紹介する。
標準の事前訓練では、単一のドキュメント内でトークン間の因果関係を学習するようにLMを教えるが、よりリッチで学習可能な文書間相関を効率的にモデル化する設計ではない。
計算整合型事前学習装置を設計し,最大1Tトークンの3Bパラメータモデルをスクラッチから事前訓練することにより,SBPを検証する。
SBPは高い繰り返しベースラインを継続的に改善し、20倍のユニークなデータにアクセス可能なオラクル上界で実現可能なパフォーマンス改善のかなりの部分を提供します。
定性的な分析によると、合成された文書は単なるパラフレーズを超えている。SBPはまず、シード素材からコア概念を抽象化し、その上に新たなナレーションを構築する。
強い経験的パフォーマンスに加えて、SBPは自然なベイズ解釈を認めており、シンセサイザーは暗黙的に関連文書間で共有される潜在概念を抽象化することを学ぶ。
関連論文リスト
- Learning and Transferring Sparse Contextual Bigrams with Linear Transformers [47.37256334633102]
スパース・コン・ビグラム(Sparse Con Bigram)モデルを導入し、次のトークンの生成は、最後のトークンによって決定される以前の位置のスパースセットに依存する。
勾配アルゴリズムを用いた一層線形変圧器を用いて,SCB学習のトレーニングダイナミクスとサンプル複雑性を解析した。
下流と事前学習タスクの間に非自明な相関関係があることを証明し、事前訓練されたモデルから微調整することで、初期サンプル集約段階を回避できることを証明した。
論文 参考訳(メタデータ) (2024-10-30T20:29:10Z) - Synthetic continued pretraining [29.6872772403251]
ドメイン固有文書の小さなコーパス上での合成継続事前学習を提案する。
合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
合成データ拡張が、よりデータ効率のよい学習を可能にするために、どのように知識を"再編成"できるかを示す。
論文 参考訳(メタデータ) (2024-09-11T17:21:59Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。