論文の概要: Synthetic continued pretraining
- arxiv url: http://arxiv.org/abs/2409.07431v1
- Date: Wed, 11 Sep 2024 17:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:41:10.287164
- Title: Synthetic continued pretraining
- Title(参考訳): 合成継続事前訓練
- Authors: Zitong Yang, Neil Band, Shuangping Li, Emmanuel Candès, Tatsunori Hashimoto,
- Abstract要約: 与えられた事実を学ぶためには、モデルは数百から数千の多様な表現で訓練されなければならない。
本研究では,より学習しやすい大規模コーパスを合成するための合成継続事前学習を提案する。
合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
- 参考スコア(独自算出の注目度): 29.6872772403251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining on large-scale, unstructured internet text has enabled language models to acquire a significant amount of world knowledge. However, this knowledge acquisition is data-inefficient -- to learn a given fact, models must be trained on hundreds to thousands of diverse representations of it. This poses a challenge when adapting a pretrained model to a small corpus of domain-specific documents, where each fact may appear rarely or only once. We propose to bridge this gap with synthetic continued pretraining: using the small domain-specific corpus to synthesize a large corpus more amenable to learning, and then performing continued pretraining on the synthesized corpus. We instantiate this proposal with EntiGraph, a synthetic data augmentation algorithm that extracts salient entities from the source documents and then generates diverse text by drawing connections between the sampled entities. Synthetic continued pretraining using EntiGraph enables a language model to answer questions and follow generic instructions related to the source documents without access to them. If instead, the source documents are available at inference time, we show that the knowledge acquired through our approach compounds with retrieval-augmented generation. To better understand these results, we build a simple mathematical model of EntiGraph, and show how synthetic data augmentation can "rearrange" knowledge to enable more data-efficient learning.
- Abstract(参考訳): 大規模で非構造化のインターネットテキストを事前学習することで、言語モデルが膨大な量の世界の知識を獲得できるようになった。
しかし、この知識獲得はデータ非効率であり、与えられた事実を知るためには、モデルは数百から数千の多様な表現で訓練されなければならない。
これは、事前訓練されたモデルをドメイン固有文書の小さなコーパスに適用する場合、各事実が稀に、または一度だけ現れる場合の課題である。
そこで本研究では,このギャップを,小規模なドメイン固有コーパスを用いて,学習しやすい大きなコーパスを合成し,合成したコーパス上で継続事前学習を行うことを提案する。
この提案を、ソース文書から有能なエンティティを抽出し、サンプルエンティティ間の接続を描画することで、多様なテキストを生成する合成データ拡張アルゴリズムであるEntiGraphでインスタンス化する。
EntiGraphを使用した総合的な事前トレーニングにより、言語モデルは質問に回答し、ソースドキュメントに関連する一般的な命令に従うことができる。
その代わりに、ソースドキュメントが推論時に利用可能である場合、我々のアプローチによって得られた知識が、検索強化された生成に結びついていることが示される。
これらの結果をよりよく理解するために、EntiGraphの単純な数学的モデルを構築し、合成データ拡張が知識を"再配置"し、よりデータ効率のよい学習を可能にする方法を示す。
関連論文リスト
- Fake it to make it: Using synthetic data to remedy the data shortage in joint multimodal speech-and-gesture synthesis [21.210982054134686]
テキストからの音声音声と音声による3Dジェスチャーの同時合成手法は,新しい,新たな分野である。
既存の手法は、すべての構成モダリティからの並列データに基づいて訓練される。
学生-教員法に着想を得て,追加の教材を簡易に合成することで,データ不足に対する直接的な解決法を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:22:19Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - KELM: Knowledge Enhanced Pre-Trained Language Representations with
Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。
我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-09T12:39:17Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Improving Text Relationship Modeling with Artificial Data [0.07614628596146598]
本稿では,デジタル図書館における関係分類への合成データアプローチの適用と評価を行う。
本書間の全部分関係の分類において、合成データはディープニューラルネットワーク分類器を91%改善することがわかった。
論文 参考訳(メタデータ) (2020-10-27T22:04:54Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven
Cloze Reward [42.925345819778656]
本稿では,グラフ拡張と意味駆動型RewarDによる抽象要約のための新しいフレームワークであるASGARDを紹介する。
本稿では,2つのエンコーダ(シーケンシャル文書エンコーダ)とグラフ構造化エンコーダ(グラフ構造化エンコーダ)の利用を提案する。
その結果、我々のモデルは、New York TimesとCNN/Daily Mailのデータセットからの入力として、知識グラフのない変種よりもはるかに高いROUGEスコアを生成することがわかった。
論文 参考訳(メタデータ) (2020-05-03T18:23:06Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。