論文の概要: Temporal Leakage in Search-Engine Date-Filtered Web Retrieval: A Case Study from Retrospective Forecasting
- arxiv url: http://arxiv.org/abs/2602.00758v1
- Date: Sat, 31 Jan 2026 14:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.381825
- Title: Temporal Leakage in Search-Engine Date-Filtered Web Retrieval: A Case Study from Retrospective Forecasting
- Title(参考訳): Search-Engine Date-Filtered Web Retrievalにおける時間漏洩:振り返り予測を事例として
- Authors: Ali El Lahib, Ying-Jieh Xia, Zehan Li, Yuxuan Wang, Xinyu Pi,
- Abstract要約: サーチエンジンの日付フィルタは、探索強化予測器の振り返り評価において、カットオフ前の検索を強制するために広く使用されている。
フィルターでGoogle検索を監査し、質問の71%は、強いカットオフ後のリークを含む少なくとも1ページを返却し、41%は、少なくとも1ページは、その答えを直接明らかにする。
我々は,更新記事,関連モジュール,信頼できないメタデータ/タイムスタンプ,不在信号などの共通リーク機構を特徴付け,時間的評価には日付制限探索が不十分であると主張する。
- 参考スコア(独自算出の注目度): 8.706104833783318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search-engine date filters are widely used to enforce pre-cutoff retrieval in retrospective evaluations of search-augmented forecasters. We show this approach is unreliable: auditing Google Search with a before: filter, 71% of questions return at least one page containing strong post-cutoff leakage, and for 41%, at least one page directly reveals the answer. Using a large language model (LLM), gpt-oss-120b, to forecast with these leaky documents, we demonstrate an inflated prediction accuracy (Brier score 0.108 vs. 0.242 with leak-free documents). We characterize common leakage mechanisms, including updated articles, related-content modules, unreliable metadata/timestamps, and absence-based signals, and argue that date-restricted search is insufficient for temporal evaluation. We recommend stronger retrieval safeguards or evaluation on frozen, time-stamped web snapshots to ensure credible retrospective forecasting.
- Abstract(参考訳): サーチエンジンの日付フィルタは、探索強化予測器の振り返り評価において、カットオフ前の検索を強制するために広く使用されている。
フィルターでGoogle検索を監査し、質問の71%は、強いカットオフ後のリークを含む少なくとも1ページを返却し、41%は、少なくとも1ページは、その答えを直接明らかにする。
大規模な言語モデル(LLM, gpt-oss-120b)を用いてこれらの漏洩文書を予測し, 膨らませた予測精度を示す(リークフリー文書の場合のBrier score 0.108 vs. 0.242)。
我々は,更新記事,関連モジュール,信頼できないメタデータ/タイムスタンプ,不在信号などの共通リーク機構を特徴付け,時間的評価には日付制限探索が不十分であると主張する。
我々は,信頼性の高い振り返り予測を保証するため,凍結したタイムスタンプのWebスナップショットに対して,より強力な検索保護や評価を推奨する。
関連論文リスト
- Look It Up: Analysing Internal Web Search Capabilities of Modern LLMs [0.0]
我々は、内部の状態やパラメータにアクセスできない商用モデルにおけるWebアクセスの必要性と有効性を評価するベンチマークを導入する。
データセットには、783の静的な分割が含まれており、時間的に固定された質問は、プレカットの知識から答えられる。
Web アクセスは GPT-5-mini と Claude Haiku 4.5 の静的精度を大幅に向上するが、信頼性の校正は悪化する。
論文 参考訳(メタデータ) (2025-11-24T09:37:43Z) - Look Before you Leap: Estimating LLM Benchmark Scores from Descriptions [35.48753431700434]
テキストのみのパフォーマンス予測について検討し、タスク記述と意図した構成からモデルのスコアを推定する。
系統的な研究を支援するため,多種多様なタスク,ドメイン,メトリクスにまたがる記述性能対のコーパスであるPreCOGをキュレートする。
実験では、タスクは困難だが実現可能であり、高い信頼しきい値の精度サブセットで平均8.7の絶対誤差に達する。
論文 参考訳(メタデータ) (2025-09-25T01:02:27Z) - Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets [14.494301139974455]
本稿では,オンライン関連度推定という新たな手法を提案する。
オンライン関連度推定は、ランキングプロセスを通して、クエリの関連度推定を継続的に更新する。
TRECベンチマークの手法をハイブリッド検索と適応検索の2つのシナリオで検証する。
論文 参考訳(メタデータ) (2025-04-12T22:05:50Z) - Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。
私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
論文 参考訳(メタデータ) (2025-03-06T23:23:13Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。