論文の概要: Search-Time Data Contamination
- arxiv url: http://arxiv.org/abs/2508.13180v1
- Date: Tue, 12 Aug 2025 22:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.632519
- Title: Search-Time Data Contamination
- Title(参考訳): 検索時間データ汚染
- Authors: Ziwen Han, Meher Mankikar, Julian Michael, Zifan Wang,
- Abstract要約: 探索時間汚染(STC)という類似の問題を検索ベースLLMエージェントの評価において同定する。
評価データセットをホストするオンラインプラットフォームであるHuggingFaceが,検索ベースのエージェントログから検索したソースの中に現れることがわかった。
本稿では,ベンチマーク設計のベストプラクティスと,この新たなリークに対処するための結果報告を提案する。
- 参考スコア(独自算出の注目度): 18.94571261664399
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data contamination refers to the leakage of evaluation data into model training data, resulting in overfitting to supposedly held-out test sets and compromising test validity. We identify an analogous issue, search-time contamination (STC), in evaluating search-based LLM agents which use tools to gather information from online sources when answering user queries. STC occurs when the retrieval step surfaces a source containing the test question (or a near-duplicate) alongside its answer, enabling agents to copy rather than genuinely infer or reason, undermining benchmark integrity. We find that HuggingFace, an online platform hosting evaluation datasets, appears among retrieved sources in search based agent logs. Consequently, agents often explicitly acknowledge discovering question answer pairs from HuggingFace within their reasoning chains. On three commonly used capability benchmarks: Humanity's Last Exam (HLE), SimpleQA, and GPQA, we demonstrate that for approximately 3% of questions, search-based agents directly find the datasets with ground truth labels on HuggingFace. When millions of evaluation queries target the same benchmark, even small, repeated leaks can accelerate the benchmark's obsolescence, shortening its intended lifecycle. After HuggingFace is blocked, we observe a drop in accuracy on the contaminated subset of approximately 15%. We further show through ablation experiments that publicly accessible evaluation datasets on HuggingFace may not be the sole source of STC. To this end, we conclude by proposing best practices for benchmark design and result reporting to address this novel form of leakage and ensure trustworthy evaluation of search-based LLM agents. To facilitate the auditing of evaluation results, we also publicly release the complete logs from our experiments.
- Abstract(参考訳): データ汚染(Data contamination)とは、評価データをモデルトレーニングデータに漏洩させることで、保持されたテストセットに過度に適合し、テストの妥当性を損なうことを意味する。
我々は,検索時間汚染(STC)という類似の問題を,ユーザクエリ応答時にオンラインソースから情報を集めるツールを用いた検索ベースLLMエージェントの評価において特定する。
STCは、検索ステップが、テスト質問(またはほぼ重複している)を含むソースをその回答と共に表面化し、エージェントが真に推論や理由ではなくコピーできるようにし、ベンチマークの整合性を損なう。
評価データセットをホストするオンラインプラットフォームであるHuggingFaceが,検索ベースのエージェントログから検索したソースの中に現れることがわかった。
その結果、エージェントはしばしば、推論チェーン内のHuggingFaceからの質問応答ペアの発見を明示的に認めます。
HumanityのLast Exam(HLE)、SimpleQA、GPQAの3つの一般的な機能ベンチマークでは、約3%の質問に対して、検索ベースのエージェントがHuggingFaceの地上の真理ラベルでデータセットを直接見つけることを示した。
何百万もの評価クエリが同じベンチマークをターゲットにする場合、たとえ小さな繰り返しリークであっても、ベンチマークの陳腐化を加速し、意図したライフサイクルを短縮することができる。
HuggingFaceがブロックされた後、汚染されたサブセットの精度が約15%低下するのを観察します。
さらに,HuggingFace上で公開されている評価データセットがSTCの唯一の情報源ではないことを示す。
この目的のために,ベンチマーク設計と結果報告のベストプラクティスを提案し,この新たなタイプの漏洩に対処し,検索に基づくLCMエージェントの信頼性評価を確実にする。
評価結果の監査を容易にするため,実験結果から全ログを公開する。
関連論文リスト
- Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。