論文の概要: Synthesize-on-Graph: Knowledgeable Synthetic Data Generation for Continue Pre-training of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.00979v2
- Date: Mon, 19 May 2025 02:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.639113
- Title: Synthesize-on-Graph: Knowledgeable Synthetic Data Generation for Continue Pre-training of Large Language Models
- Title(参考訳): Synthesize-on-Graph:大規模言語モデルの継続事前学習のための知識可能な合成データ生成
- Authors: Xuhui Jiang, Shengjie Ma, Chengjin Xu, Cehao Yang, Liyu Zhang, Jian Guo,
- Abstract要約: 本稿では,コーパスを効率的に拡張するためのクロスドキュメント知識結合を組み込んだ合成データ生成フレームワークであるSynthetic-on-Graph(SoG)を提案する。
SoGは、元のコーパスから実体と概念を抽出し、文書間の関連性を表すコンテキストグラフを構築する。
合成データの品質をさらに向上するため,我々は,CoT(Chain-of-Thought)とCC(Contrastive Clarification)を統合し,推論プロセスと識別力を増強した。
- 参考スコア(独自算出の注目度): 8.299006259255572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success but remain data-inefficient, especially when learning from small, specialized corpora with limited and proprietary data. Existing synthetic data generation methods for continue pre-training focus on intra-document content and overlook cross-document knowledge associations, limiting content diversity and depth. We propose Synthetic-on-Graph (SoG), a synthetic data generation framework that incorporates cross-document knowledge associations for efficient corpus expansion. SoG constructs a context graph by extracting entities and concepts from the original corpus, representing cross-document associations, and employing a graph walk strategy for knowledge-associated sampling. This enhances synthetic data diversity and coherence, enabling models to learn complex knowledge structures and handle rare knowledge. To further improve synthetic data quality, we integrate Chain-of-Thought (CoT) and Contrastive Clarifying (CC) synthetic, enhancing reasoning processes and discriminative power. Experiments show that SoG outperforms the state-of-the-art (SOTA) method in a multi-hop document Q&A dataset while performing comparably to the SOTA method on the reading comprehension task datasets, which also underscores the better generalization capability of SoG. Our work advances synthetic data generation and provides practical solutions for efficient knowledge acquisition in LLMs, especially in domains with limited data availability.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい成功を収めているが、特に限定的でプロプライエタリなデータを持つ、小さくて特殊なコーパスから学ぶ際には、データ非効率を保っている。
既存の合成データ生成手法は、文書内コンテンツに重点を置き、文書間知識の関連性を見落とし、内容の多様性と深さを制限している。
本稿では,コーパスを効率的に拡張するためのクロスドキュメント知識結合を組み込んだ合成データ生成フレームワークであるSynthetic-on-Graph(SoG)を提案する。
SoGは、元のコーパスから実体や概念を抽出してコンテキストグラフを構築し、クロスドキュメント関連を表現し、知識関連サンプリングにグラフウォーク戦略を用いる。
これにより、合成データの多様性と一貫性が向上し、モデルは複雑な知識構造を学習し、希少な知識を扱うことができる。
合成データの品質をさらに向上するため,我々は,CoT(Chain-of-Thought)とCC(Contrastive Clarification)を統合し,推論プロセスと識別力を増強した。
実験の結果,SoG は多項目文書 Q&A データセットにおける最先端(SOTA) 手法より優れ,読解タスクデータセット上で SOTA 手法と相容れない性能を示し,SoG のより優れた一般化能力を示している。
我々の研究は、合成データ生成を進歩させ、特に限られたデータ可用性を持つ領域において、LLMにおける効率的な知識獲得のための実用的なソリューションを提供する。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Enhancing Document AI Data Generation Through Graph-Based Synthetic Layouts [0.8245350546263803]
グラフニューラルネットワーク(GNN)を用いた文書レイアウト生成のための新しい手法を提案する。
ドキュメント要素をグラフのノードとして表現することで、GNNは現実的で多様なドキュメントレイアウトを生成するように訓練される。
実験の結果,既存の拡張手法よりもグラフ拡張文書のレイアウトが優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-27T21:15:02Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Synthetic continued pretraining [29.6872772403251]
ドメイン固有文書の小さなコーパス上での合成継続事前学習を提案する。
合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
合成データ拡張が、よりデータ効率のよい学習を可能にするために、どのように知識を"再編成"できるかを示す。
論文 参考訳(メタデータ) (2024-09-11T17:21:59Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Effective Few-Shot Named Entity Linking by Meta-Learning [34.70028855572534]
本稿では,非自明な合成エンティティ-メント対を生成するための新しい弱監督戦略を提案する。
また,各合成実体対に異なる重みを割り当てるメタ学習機構を設計する。
実世界のデータセットの実験により、提案手法は最先端の少数ショットエンティティリンクモデルを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2022-07-12T03:23:02Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。