論文の概要: Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.17585v1
- Date: Sat, 21 Jun 2025 04:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.487225
- Title: Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models
- Title(参考訳): Cite Pretrain: 大規模言語モデルに対する検索自由知識属性
- Authors: Yukun Huang, Sanxing Chen, Jian Pei, Manzil Zaheer, Bhuwan Dhingra,
- Abstract要約: 信頼できる言語モデルは、正しい答えと検証可能な答えの両方を提供するべきです。
現在のシステムは、外部レトリバーを推論時にクエリすることで、引用を挿入する。
本稿では,合成QAペアを継続的に事前訓練するActive Indexingを提案する。
- 参考スコア(独自算出の注目度): 53.17363502535395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trustworthy language models should provide both correct and verifiable answers. While language models can sometimes attribute their outputs to pretraining data, their citations are often unreliable due to hallucination. As a result, current systems insert citations by querying an external retriever at inference time, introducing latency, infrastructure dependence, and vulnerability to retrieval noise. We explore whether LLMs can be made to reliably attribute to the documents seen during (continual) pretraining--without test-time retrieval--by revising the training process. To evaluate this, we release CitePretrainBench, a benchmark that mixes real-world corpora (Wikipedia, Common Crawl, arXiv) with novel, unseen documents and probes both short-form (single fact) and long-form (multi-fact) citation tasks. Our approach follows a two-stage process: (1) continual pretraining to bind facts to persistent document identifiers, and (2) instruction tuning to elicit citation behavior. We find that simple Passive Indexing, which appends an identifier to each document, helps memorize verbatim text but fails on paraphrased or compositional facts. Instead, we propose Active Indexing, which continually pretrains on synthetic QA pairs that (1) restate each fact in diverse compositional forms, and (2) require bidirectional source-to-fact and fact-to-source generation, jointly teaching the model to generate content from a cited source and to attribute its own answers. Experiments with Qwen2.5-7B and 3B show that Active Indexing consistently outperforms Passive Indexing across all tasks and models, with citation precision gains up to 30.2 percent. Our ablation studies reveal that performance continues to improve as we scale the amount of augmented data, showing a clear upward trend even at 16 times the original token count.
- Abstract(参考訳): 信頼できる言語モデルは、正しい答えと検証可能な答えの両方を提供するべきです。
言語モデルは出力を事前学習データとみなすこともあるが、幻覚による引用は信頼できないことが多い。
その結果、現在のシステムは、外部レトリバーを推論時に問い合わせ、遅延、インフラストラクチャ依存、検索ノイズに対する脆弱性を導入して、引用を挿入する。
我々は,LLMが(連続的な)事前学習中に見られる文書に確実に関連付けることができるかどうかを,トレーニングプロセスの見直しにより検討する。
これを評価するために,実世界のコーパス(Wikipedia,Common Crawl,arXiv)と新規で見えない文書を混合したベンチマークCitePretrainBenchをリリースし,ショートフォーム(単一事実)とロングフォーム(複数事実)の両方の引用タスクを探索する。
提案手法は,(1) 事実を永続的な文書識別子にバインドする継続事前学習,(2) 引用動作を誘発する命令チューニングという2段階のプロセスに従う。
各文書に識別子を付加する単純なパッシブインデックスは、動詞のテキストを記憶するのに役立ちますが、言い換えや合成の事実では失敗します。
そこで我々は,(1)各事実を多種多様な構成形式で再現する合成QAペアを継続的に事前訓練し,(2)双方向のソース・ツー・ファクト・トゥ・ソース生成を必要とするActive Indexingを提案する。
Qwen2.5-7Bと3Bの実験では、アクティブインデックスはすべてのタスクやモデルで一貫してパッシブインデックスよりも優れており、引用精度は最大30.2%向上している。
我々のアブレーション研究は、拡張データの量を拡大するにつれてパフォーマンスが向上し続けており、元のトークン数の16倍であっても、明らかな上昇傾向を示していることを示している。
関連論文リスト
- DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Data-Efficient Autoregressive Document Retrieval for Fact Verification [7.935530801269922]
本稿では,自己回帰型レトリバーの学習にアノテーションを要さない遠隔スーパービジョン手法を提案する。
タスク固有の微調整, 自動回帰検索による2つのウィキペディアベースの事実検証タスクが, 完全監督に近づいたり, 超えたりできることを示す。
論文 参考訳(メタデータ) (2022-11-17T07:27:50Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。