論文の概要: Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.17585v2
- Date: Tue, 28 Oct 2025 18:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:43.783218
- Title: Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models
- Title(参考訳): Cite Pretrain: 大規模言語モデルに対する検索自由知識属性
- Authors: Yukun Huang, Sanxing Chen, Jian Pei, Manzil Zaheer, Bhuwan Dhingra,
- Abstract要約: 最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
- 参考スコア(独自算出の注目度): 44.31597857713689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trustworthy language models should provide both correct and verifiable answers. However, citations generated directly by standalone LLMs are often unreliable. As a result, current systems insert citations by querying an external retriever at inference time, introducing latency, infrastructure dependence, and vulnerability to retrieval noise. We explore whether LLMs can be made to reliably attribute to the documents seen during continual pretraining without test-time retrieval, by revising the training process. To study this, we construct CitePretrainBench, a benchmark that mixes real-world corpora (Wikipedia, Common Crawl, arXiv) with novel documents and probes both short-form (single-fact) and long-form (multi-fact) citation tasks. Our approach follows a two-stage process: (1) continual pretraining to index factual knowledge by binding it to persistent document identifiers; and (2) instruction tuning to elicit citation behavior. We introduce Active Indexing for the first stage, which creates generalizable, source-anchored bindings by augmenting training with synthetic data that (i) restate each fact in diverse, compositional forms and (ii) enforce bidirectional training (source-to-fact and fact-to-source). This equips the model to both generate content from a cited source and attribute its own answers, improving robustness to paraphrase and composition. Experiments with Qwen-2.5-7B&3B show that Active Indexing consistently outperforms a Passive Indexing baseline, which simply appends an identifier to each document, achieving citation precision gains of up to 30.2% across all tasks and models. Our ablation studies reveal that performance continues to improve as we scale the amount of augmented data, showing a clear upward trend even at 16x the original token count. Finally, we show that internal citations complement external ones by making the model more robust to retrieval noise.
- Abstract(参考訳): 信頼できる言語モデルは、正しい答えと検証可能な答えの両方を提供するべきです。
しかし、スタンドアローンLSMによって直接生成される励起は、しばしば信頼できない。
その結果、現在のシステムは、外部レトリバーを推論時に問い合わせ、遅延、インフラストラクチャ依存、検索ノイズに対する脆弱性を導入して、引用を挿入する。
本研究では,LLM がテスト時間検索なしで継続事前学習中に見られる文書に確実に対応できるかどうかを,トレーニングプロセスの見直しにより検討する。
そこで本研究では,現実のコーパス(Wikipedia,Common Crawl,arXiv)を新しい文書と組み合わせたベンチマークCitePretrainBenchを構築し,短文(単品)と長文(多品)の両方の引用タスクを探索する。
提案手法は,(1)永続的な文書識別子に紐付けることによって,事実知識をインデックス化するための継続事前学習,(2)引用行動を引き出すための指導チューニングという2段階のプロセスに従う。
第1段階でActive Indexingを導入し、合成データによるトレーニングを増強することで、一般化可能なソースアンコールバインディングを生成する。
一 各事実を多様で構成的な形で再考すること
(II)双方向トレーニング(ソース・トゥ・ファクト・トゥ・ソース)を実施する。
これにより、引用されたソースからコンテンツを生成し、それ自身の回答を属性にすることで、パラフレーズやコンポジションに対する堅牢性を向上させることができる。
Qwen-2.5-7B&3Bの実験によると、Active IndexingはPassive Indexingベースラインを一貫して上回り、各ドキュメントに識別子を付加するだけで、すべてのタスクやモデルで最大30.2%の精度で引用精度が向上する。
我々のアブレーション研究は、拡張データの量を拡大するにつれてパフォーマンスが向上し続けており、元のトークン数の16倍の上昇傾向が明らかであることを示している。
最後に、内部の引用が外部の引用を補完することを示す。
関連論文リスト
- Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。
近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。
生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文 参考訳(メタデータ) (2024-07-16T08:42:36Z) - Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。
先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。
本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文 参考訳(メタデータ) (2024-06-10T09:32:37Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Data-Efficient Autoregressive Document Retrieval for Fact Verification [7.935530801269922]
本稿では,自己回帰型レトリバーの学習にアノテーションを要さない遠隔スーパービジョン手法を提案する。
タスク固有の微調整, 自動回帰検索による2つのウィキペディアベースの事実検証タスクが, 完全監督に近づいたり, 超えたりできることを示す。
論文 参考訳(メタデータ) (2022-11-17T07:27:50Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Stretching Sentence-pair NLI Models to Reason over Long Documents and
Clusters [35.103851212995046]
自然言語推論(NLI)は,文ペア間の意味的関係を推定するフレームワークとして,NLPコミュニティによって広く研究されている。
我々は、NLIモデルの実アプリケーションへの直接ゼロショット適用性について、訓練された文ペア設定を超えて検討する。
本研究では,ContractNLIデータセット上で,フルドキュメント上で動作し,最先端のパフォーマンスを実現するための新たなアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2022-04-15T12:56:39Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。