論文の概要: Synthetic Mixed Training: Scaling Parametric Knowledge Acquisition Beyond RAG
- arxiv url: http://arxiv.org/abs/2603.23562v2
- Date: Mon, 30 Mar 2026 08:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 13:48:18.798585
- Title: Synthetic Mixed Training: Scaling Parametric Knowledge Acquisition Beyond RAG
- Title(参考訳): 合成混合トレーニング:RAGを超えるパラメトリック知識獲得のスケーリング
- Authors: Seungju Han, Konwoo Kim, Chanwoo Park, Benjamin Newman, Suhas Kotha, Jaehun Jung, James Zou, Yejin Choi,
- Abstract要約: 本稿では,合成QAと合成文書を組み合わせた合成混合訓練について紹介する。
これにより、合成データボリュームとジェネレータ強度が増大するにつれて、ログリニアの改善が可能になる。
モデルとベンチマーク全体を通じて、トレーニングにより、モデルがRAGを6つの設定のうち5つで上回り、パフォーマンスが2.6%向上し、RAGと組み合わせると9.1%向上する。
- 参考スコア(独自算出の注目度): 56.95387658211215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data augmentation helps language models learn new knowledge in data-constrained domains. However, naively scaling existing synthetic data methods by training on more synthetic tokens or using stronger generators yields diminishing returns below the performance of RAG. To break the RAG ceiling, we introduce Synthetic Mixed Training, which combines synthetic QAs and synthetic documents. This leverages their complementary training signals, and enables log-linear improvements as both synthetic data volume and generator strength increase. This allows the model to outperform RAG by a 2.6% relative gain on QuaLITY, a long-document reading comprehension benchmark. In addition, we introduce Focal Rewriting, a simple technique for synthetic document generation that explicitly conditions document generation on specific questions, improving the diversity of synthetic documents and yielding a steeper log-linear scaling curve. On QuaLITY, our final recipe trains a Llama 8B model that outperforms RAG by 4.4% relatively. Across models and benchmarks (QuaLITY, LongHealth, FinanceBench), our training enables models to beat RAG in five of six settings, outperforms by 2.6%, and achieves a 9.1% gain when combined with RAG.
- Abstract(参考訳): 合成データ拡張は、言語モデルがデータ制約されたドメインで新しい知識を学ぶのに役立つ。
しかし、既存の合成データ手法を、より多くの合成トークンをトレーニングしたり、より強力なジェネレータを使用したりすることで、RAGの性能より低いリターンを減少させる。
RAG天井を破るために,合成QAと合成文書を組み合わせた合成混合訓練を導入する。
これにより、相補的なトレーニング信号が利用でき、合成データ量とジェネレータ強度が増大するにつれて、対数線形の改善が可能になる。
これにより、長い文書読解ベンチマークであるQuaLITYの相対的な利得がRAGより2.6%向上する。
さらに、Focal Rewritingは、特定の質問に対して文書生成を明示的に条件付けし、合成文書の多様性を改善し、より急勾配な対数線形スケーリング曲線を得る合成文書生成の簡単なテクニックである。
最後のレシピでは、RAGを4.4%上回るLlama 8Bモデルをトレーニングしています。
モデルとベンチマーク全体(QuaLITY, LongHealth, FinanceBench)のトレーニングでは、6つの設定のうち5つでRAGを倒し、2.6%でパフォーマンスを上回り、RAGと組み合わせると9.1%のゲインを達成した。
関連論文リスト
- Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。
我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。
以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2025-05-06T07:57:16Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - AugGen: Synthetic Augmentation using Diffusion Models Can Improve Recognition [14.525986333650417]
合成データ生成は、外部データセットや事前訓練されたモデルに代わる有望な代替手段を提供する。
AugGenは、ターゲットFRデータセットにのみ訓練されたクラス条件生成モデルから戦略的にサンプリングする。
本研究は, プライバシー制約を緩和し, 認識性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2025-03-14T16:10:21Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。