論文の概要: WRAP++: Web discoveRy Amplified Pretraining
- arxiv url: http://arxiv.org/abs/2604.06829v1
- Date: Wed, 08 Apr 2026 08:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.433755
- Title: WRAP++: Web discoveRy Amplified Pretraining
- Title(参考訳): WRAP++: Web DiscoveRy Amplified Pretraining
- Authors: Jiang Zhou, Yunhao Wang, Xing Wu, Tinghao Yu, Feng Zhang,
- Abstract要約: WRAP++(Web DiscoveRy Amplified Pretraining)を提案する。
WRAP++は、Webハイパーリンクからドキュメント間の関係を発見し、各文書ペア上で共同QAを合成する。
SimpleQAでは、7Bスケールと32BスケールのOLMoベースのモデルは、WRAP++でトレーニングされた。
- 参考スコア(独自算出の注目度): 9.79503335028396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data rephrasing has emerged as a powerful technique for enhancing knowledge acquisition during large language model (LLM) pretraining. However, existing approaches operate at the single-document level, rewriting individual web pages in isolation. This confines synthesized examples to intra-document knowledge, missing cross-document relationships and leaving facts with limited associative context. We propose WRAP++ (Web discoveRy Amplified Pretraining), which amplifies the associative context of factual knowledge by discovering cross-document relationships from web hyperlinks and synthesizing joint QA over each discovered document pair. Concretely, WRAP++ discovers high-confidence relational motifs including dual-links and co-mentions, and synthesizes QA that requires reasoning across both documents. This produces relational knowledge absent from either source document alone, creating diverse entry points to the same facts. Because the number of valid entity pairs grows combinatorially, this discovery-driven synthesis also amplifies data scale far beyond single-document rewriting. Instantiating WRAP++ on Wikipedia, we amplify ~8.4B tokens of raw text into 80B tokens of cross-document QA data. On SimpleQA, OLMo-based models at both 7B and 32B scales trained with WRAP++ substantially outperform single-document approaches and exhibit sustained scaling gains, underscoring the advantage of cross-document knowledge discovery and amplification.
- Abstract(参考訳): 合成データ言い換えは,大規模言語モデル(LLM)事前学習において,知識獲得を促進する強力な手法として登場した。
しかし、既存のアプローチは単一ドキュメントレベルで動作し、個別のWebページを個別に書き換える。
これは、合成された例を文書内知識に限定し、文書間の関係を欠いたり、関連性に制限のある事実を残したりする。
WRAP++(Web DiscoveRy Amplified Pretraining)は,Webハイパーリンクから文書間関係を発見し,各文書ペア上で共同QAを合成することにより,事実知識の連想コンテキストを増幅する。
具体的には、WRAP++は二重リンクやコメンションを含む高信頼リレーショナルモチーフを発見し、両方のドキュメントをまたぐ推論を必要とするQAを合成する。
これにより、いずれのソース文書も関係知識が欠落し、同じ事実に対する多様なエントリポイントが生成される。
有効なエンティティペアの数は組合せ的に増加するため、この発見駆動合成は単一文書の書き換えを超えてデータスケールを増幅する。
WikipediaでWRAP++を検証し、原文の8.4BトークンをクロスドキュメントQAデータの80Bトークンに増幅する。
SimpleQAでは、WRAP++でトレーニングされた7Bおよび32BスケールのOLMoベースのモデルが、単一ドキュメントアプローチを大幅に上回り、持続的なスケーリングゲインを示し、クロスドキュメントの知識発見と増幅の利点を強調している。
関連論文リスト
- ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - DocHop-QA: Towards Multi-Hop Reasoning over Multimodal Document Collections [23.428084176322866]
本稿では,マルチモーダル,マルチドキュメント,マルチホップ質問応答のための大規模ベンチマークであるDocHop-QAを提案する。
DocHop-QAはドメインに依存しないもので、テキストパス、テーブル、構造的なレイアウトキューなど、さまざまな情報フォーマットが組み込まれている。
我々は,構造化インデックス予測,生成応答,マルチモーダル統合の4つのタスクを通してDocHop-QAを評価した。
論文 参考訳(メタデータ) (2025-08-20T08:17:45Z) - Multi-Facet Blending for Faceted Query-by-Example Retrieval [5.156059061769101]
本稿では,多面体ブレンディング(FaBle)拡張法を提案する。
モジュール化によって、事前に定義されたファセットの知識やラベルが不要になります。
1K文書上のFaBle拡張は、ファセット条件埋め込みの訓練を著しく支援する。
論文 参考訳(メタデータ) (2024-12-02T12:32:19Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Knowledge-Driven Cross-Document Relation Extraction [3.868708275322908]
関係抽出(RE)はよく知られたNLPアプリケーションであり、文レベルや文書レベルのタスクとして扱われる。
本稿では,文書横断REのための入力テキストにエンティティのドメイン知識を組み込む新しい手法KXDocREを提案する。
論文 参考訳(メタデータ) (2024-05-22T11:30:59Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。