論文の概要: DataDignity: Training Data Attribution for Large Language Models
- arxiv url: http://arxiv.org/abs/2605.05687v1
- Date: Thu, 07 May 2026 05:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.529989
- Title: DataDignity: Training Data Attribution for Large Language Models
- Title(参考訳): DataDignity: 大規模言語モデルのトレーニングデータ属性
- Authors: Xiaomin Li, Andrzej Banburski-Fahey, Jaron Lanier,
- Abstract要約: 我々は3,537個のウィキペディア風記事のベンチマークであるFakeWikiを紹介した。
FakeWikiにはQAプローブ、ソース保存のパラフレーズ、レトロ生成の変種、解答クリティカルな事実を取り除きながら、極端に類似した硬いアンチドキュメントが含まれている。
我々は,7つの検索ベースライン,トレーニング不要なアクティベーション・ステアリング・検索・フュージョン法,SteerFuse,および教師付きコントラスト・プロファイランス・ローダであるScoringModelを評価した。
- 参考スコア(独自算出の注目度): 8.195274857647782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auditing language-model outputs often requires more than judging correctness: an auditor may need to identify which source document most likely supports the knowledge expressed in a response. We study this as pinpoint provenance: given a prompt, a target-model response, and a candidate corpus, rank the documents that best support the response. We introduce FakeWiki, a controlled benchmark of 3,537 fabricated Wikipedia-style articles designed to preserve ground-truth provenance while weakening lexical shortcuts. FakeWiki includes QA probes, source-preserving paraphrases, retro-generated variants, hard anti-documents that remain topically similar while removing answer-critical facts, and five query conditions: clean prompting plus four jailbreak-inspired transformations. We evaluate seven retrieval baselines, a training-free activation-steering retrieval-fusion method, SteerFuse, and a supervised contrastive provenance ranker, ScoringModel. ScoringModel maps response and document features into a shared space and is trained with InfoNCE using in-batch, retrieval-mined, and anti-document negatives. Across nine open-weight instruction-tuned LLMs and five query conditions, ScoringModel improves mean Recall@10 from 35.0 for the strongest retrieval baseline to 52.2, without inference-time fusion, and wins 41/45 model-by-condition cells. SteerFuse is usually second-best despite requiring no supervised training, showing that activation-space evidence can efficiently complement text retrieval. On jailbreak-inspired transformed queries, ScoringModel improves Recall@10 by 15.7 points on average over the best baseline. Overall, our work shows that robust training data attribution requires evaluation settings that separate true answer support from topical or lexical resemblance.
- Abstract(参考訳): 監査官は、どのソースドキュメントが応答で表現された知識を最もサポートしているかを特定する必要があるかもしれない。
我々は、これをピンポイント証明として研究する: プロンプト、ターゲットモデル応答、および候補コーパスが与えられた場合、応答を最も支持する文書をランク付けする。
FakeWikiは、3,537個のウィキペディア風の記事を制御したベンチマークであり、語彙的ショートカットを弱めつつ、真実の証明を保ちつつ設計されている。
FakeWikiには、QAプローブ、ソース保存のパラフレーズ、レトロ生成の亜種、回答クリティカルな事実を取り除きながら極端に類似したハードアンチドキュメント、クリーンプロンプトと4つのジェイルブレイクにインスパイアされた変換を含む5つのクエリ条件が含まれている。
我々は,7つの検索ベースライン,トレーニング不要なアクティベーション・ステアリング・検索・フュージョン法,SteerFuse,および教師付きコントラスト・プロファイランス・ローダであるScoringModelを評価した。
ScoringModelは、レスポンスとドキュメントの機能を共有スペースにマッピングし、In-batch、Research-mined、Anti-document negativesを使用してInfoNCEでトレーニングする。
9つのオープンウェイトな命令チューニング LLM と5つのクエリ条件に対して、ScoringModel は、最強検索ベースラインに対する平均 Recall@10 を35.0 から52.2 に改善する。
SteerFuseは通常、教師付きトレーニングを必要とせず、アクティベーションスペースエビデンスがテキスト検索を効率的に補完できることを示す第2位である。
ジェイルブレイクにインスパイアされた変換クエリでは、最高のベースラインよりも平均15.7ポイント改善されている。
全体として、ロバストなトレーニングデータ帰属は、真の回答サポートをトピックや語彙的類似から分離する評価設定を必要とすることを、我々の研究は示している。
関連論文リスト
- What Papers Don't Tell You: Recovering Tacit Knowledge for Automated Paper Reproduction [57.86097956633207]
Methodは、学術論文から実行可能なコードを生成するグラフベースのエージェントフレームワークである。
3つのドメイン、10のタスク、10の最近の論文にまたがる拡張ReproduceBenchでは、公式実装に対する平均的なパフォーマンスギャップが10.04%に達する。
論文 参考訳(メタデータ) (2026-03-02T12:33:31Z) - DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval [36.38599923075882]
DIVERは、推論集約的な情報検索のために設計された検索パイプラインである。
ドキュメント前処理ステージ、クエリ拡張ステージ、検索ステージ、再ランクステージの4つのコンポーネントで構成されている。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:57:49Z) - Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [44.31597857713689]
最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Data-Efficient Autoregressive Document Retrieval for Fact Verification [7.935530801269922]
本稿では,自己回帰型レトリバーの学習にアノテーションを要さない遠隔スーパービジョン手法を提案する。
タスク固有の微調整, 自動回帰検索による2つのウィキペディアベースの事実検証タスクが, 完全監督に近づいたり, 超えたりできることを示す。
論文 参考訳(メタデータ) (2022-11-17T07:27:50Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。