論文の概要: Search-Time Data Contamination
- arxiv url: http://arxiv.org/abs/2508.13180v1
- Date: Tue, 12 Aug 2025 22:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.632519
- Title: Search-Time Data Contamination
- Title(参考訳): 検索時間データ汚染
- Authors: Ziwen Han, Meher Mankikar, Julian Michael, Zifan Wang,
- Abstract要約: 探索時間汚染(STC)という類似の問題を検索ベースLLMエージェントの評価において同定する。
評価データセットをホストするオンラインプラットフォームであるHuggingFaceが,検索ベースのエージェントログから検索したソースの中に現れることがわかった。
本稿では,ベンチマーク設計のベストプラクティスと,この新たなリークに対処するための結果報告を提案する。
- 参考スコア(独自算出の注目度): 18.94571261664399
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data contamination refers to the leakage of evaluation data into model training data, resulting in overfitting to supposedly held-out test sets and compromising test validity. We identify an analogous issue, search-time contamination (STC), in evaluating search-based LLM agents which use tools to gather information from online sources when answering user queries. STC occurs when the retrieval step surfaces a source containing the test question (or a near-duplicate) alongside its answer, enabling agents to copy rather than genuinely infer or reason, undermining benchmark integrity. We find that HuggingFace, an online platform hosting evaluation datasets, appears among retrieved sources in search based agent logs. Consequently, agents often explicitly acknowledge discovering question answer pairs from HuggingFace within their reasoning chains. On three commonly used capability benchmarks: Humanity's Last Exam (HLE), SimpleQA, and GPQA, we demonstrate that for approximately 3% of questions, search-based agents directly find the datasets with ground truth labels on HuggingFace. When millions of evaluation queries target the same benchmark, even small, repeated leaks can accelerate the benchmark's obsolescence, shortening its intended lifecycle. After HuggingFace is blocked, we observe a drop in accuracy on the contaminated subset of approximately 15%. We further show through ablation experiments that publicly accessible evaluation datasets on HuggingFace may not be the sole source of STC. To this end, we conclude by proposing best practices for benchmark design and result reporting to address this novel form of leakage and ensure trustworthy evaluation of search-based LLM agents. To facilitate the auditing of evaluation results, we also publicly release the complete logs from our experiments.
- Abstract(参考訳): データ汚染(Data contamination)とは、評価データをモデルトレーニングデータに漏洩させることで、保持されたテストセットに過度に適合し、テストの妥当性を損なうことを意味する。
我々は,検索時間汚染(STC)という類似の問題を,ユーザクエリ応答時にオンラインソースから情報を集めるツールを用いた検索ベースLLMエージェントの評価において特定する。
STCは、検索ステップが、テスト質問(またはほぼ重複している)を含むソースをその回答と共に表面化し、エージェントが真に推論や理由ではなくコピーできるようにし、ベンチマークの整合性を損なう。
評価データセットをホストするオンラインプラットフォームであるHuggingFaceが,検索ベースのエージェントログから検索したソースの中に現れることがわかった。
その結果、エージェントはしばしば、推論チェーン内のHuggingFaceからの質問応答ペアの発見を明示的に認めます。
HumanityのLast Exam(HLE)、SimpleQA、GPQAの3つの一般的な機能ベンチマークでは、約3%の質問に対して、検索ベースのエージェントがHuggingFaceの地上の真理ラベルでデータセットを直接見つけることを示した。
何百万もの評価クエリが同じベンチマークをターゲットにする場合、たとえ小さな繰り返しリークであっても、ベンチマークの陳腐化を加速し、意図したライフサイクルを短縮することができる。
HuggingFaceがブロックされた後、汚染されたサブセットの精度が約15%低下するのを観察します。
さらに,HuggingFace上で公開されている評価データセットがSTCの唯一の情報源ではないことを示す。
この目的のために,ベンチマーク設計と結果報告のベストプラクティスを提案し,この新たなタイプの漏洩に対処し,検索に基づくLCMエージェントの信頼性評価を確実にする。
評価結果の監査を容易にするため,実験結果から全ログを公開する。
関連論文リスト
- iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics [9.25340189071758]
iAgentBenchは,クロスソース・センスメイキングのための動的ODQAベンチマークである。
iAgentBenchは、現実世界の注目信号からシードトピックを抽出し、共通のユーザ意図パターンを使用して、ユーザライクな質問を構築する。
各インスタンスには、トレース可能なエビデンスと、汚染チェックをサポートする監査可能な中間アーティファクトが付属している。
論文 参考訳(メタデータ) (2026-03-04T22:40:08Z) - SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback [68.60326181052658]
本稿では,高品質で難易度の高い探索問合せを自動生成するエージェントパイプラインを提案する。
我々のパイプラインであるSAGEは、QAペアを提案するデータジェネレータと、生成された質問を解決するための検索エージェントで構成される。
我々の本質的な評価は、SAGEが様々な推論戦略を必要とする質問を生成する一方で、生成したデータの正確性や難易度を著しく高めていることを示している。
論文 参考訳(メタデータ) (2026-01-26T06:37:56Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。