論文の概要: Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks
- arxiv url: http://arxiv.org/abs/2603.04532v1
- Date: Wed, 04 Mar 2026 19:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.939075
- Title: Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks
- Title(参考訳): 依然として新鮮か? 検索ベンチマークで時間的リフットを評価する
- Authors: Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur, Jimmy Lin,
- Abstract要約: APIの廃止やコード再構成といった技術的なコーパスの時間的変化は、既存のベンチマークを不安定にすることができる。
我々は2024年10月から2025年10月にかけて、FreshStackの2つの独立したコーパススナップショットを調査し、LangChainに関する質問に答える。
- 参考スコア(独自算出の注目度): 40.92390378341581
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Information retrieval (IR) benchmarks typically follow the Cranfield paradigm, relying on static and predefined corpora. However, temporal changes in technical corpora, such as API deprecations and code reorganizations, can render existing benchmarks stale. In our work, we investigate how temporal corpus drift affects FreshStack, a retrieval benchmark focused on technical domains. We examine two independent corpus snapshots of FreshStack from October 2024 and October 2025 to answer questions about LangChain. Our analysis shows that all but one query posed in 2024 remain fully supported by the 2025 corpus, as relevant documents "migrate" from LangChain to competitor repositories, such as LlamaIndex. Next, we compare the accuracy of retrieval models on both snapshots and observe only minor shifts in model rankings, with overall strong correlation of up to 0.978 Kendall $τ$ at Recall@50. These results suggest that retrieval benchmarks re-judged with evolving temporal corpora can remain reliable for retrieval evaluation. We publicly release all our artifacts at https://github.com/fresh-stack/driftbench.
- Abstract(参考訳): 情報検索(IR)ベンチマークは通常、静的および事前定義されたコーパスに依存するクランフィールドパラダイムに従う。
しかし、APIの非推奨やコード再構成といった技術的なコーパスの時間的変化は、既存のベンチマークを停滞させる可能性がある。
本研究では,時間的コーパスドリフトが技術ドメインに着目した検索ベンチマークであるFreshStackにどのように影響するかを検討する。
我々は2024年10月から2025年10月にかけて、FreshStackの2つの独立したコーパススナップショットを調査し、LangChainに関する質問に答える。
我々の分析によると、LlamaIndexのようなLangChainから競合リポジトリへ移行する関連文書として、2024年に提案された1つのクエリ以外はすべて、2025コーパスによって完全にサポートされている。
次に、両方のスナップショットにおける検索モデルの精度を比較し、モデルランキングの微妙なシフトのみを観察し、Recall@50で最大0.978 Kendall$τ$までの相関関係を示す。
これらの結果から, 時間的コーパスの進展により再評価された検索ベンチマークは, 信頼性が保たれる可能性が示唆された。
私たちは、すべてのアーティファクトをhttps://github.com/fresh-stack/driftbench.comで公開しています。
関連論文リスト
- RATE: Reviewer Profiling and Annotation-free Training for Expertise Ranking in Peer Review Systems [6.083097040417168]
LRベンチ(LR-bench)は,2024-2025のAI/NLP原稿を5段階の自己評価親和性評価で評価したベンチマークである。
また、レビュアーの最近の出版物をコンパクトなキーワードベースのプロファイルに抽出するレビュアー中心のランキングフレームワークであるRATEを提案する。
我々の手法は、常に最先端のパフォーマンスを達成し、明確なマージンで強力な埋め込みベースラインを上回ります。
論文 参考訳(メタデータ) (2026-01-27T14:13:46Z) - TEMPO: A Realistic Multi-Domain Benchmark for Temporal Reasoning-Intensive Retrieval [44.94371780739013]
既存の時間的QAベンチマークは、ニュースコーパスからの事実検索クエリに焦点を当てている。
13ドメインにわたる時間的推論と推論集約検索を組み合わせた最初のベンチマークであるTEMPOを紹介する。
論文 参考訳(メタデータ) (2026-01-14T14:45:20Z) - LiveVectorLake: A Real-Time Versioned Knowledge Base Architecture for Streaming Vector Updates and Temporal Retrieval [0.0]
LivevusLakeは2階層の時間的知識ベースアーキテクチャで、現在の知識をリアルタイムにセマンティック検索できる。
システムは、コンプライアンス、監査可能性、ポイント・イン・タイム検索のための完全なバージョン履歴を維持している。
論文 参考訳(メタデータ) (2025-11-24T11:15:39Z) - LiveSearchBench: An Automatically Constructed Benchmark for Retrieval and Reasoning over Dynamic Knowledge [31.40589987269264]
近年の知識更新から検索依存ベンチマークを構築するためのパイプラインであるLiveSearchBenchを紹介する。
提案手法は, 連続するウィキデータスナップショット間のデルタを計算し, 品質の3倍をフィルタし, 3段階の推論困難度で自然言語質問を合成する。
実験では、モデルが過去の事前トレーニングの事実に直面すると、パフォーマンスの低下が顕著になる。
論文 参考訳(メタデータ) (2025-11-03T10:00:49Z) - DS@GT at LongEval: Evaluating Temporal Performance in Web Search Systems and Topics with Two-Stage Retrieval [44.99833362998488]
DS@GTコンペティションチームはCLEF 2025のLongEval(LongEval)実験室に参加した。
Qwant Webデータセットの分析には、時間とともにトピックモデリングを伴う探索的データ分析が含まれる。
我々のベストシステムは、トレーニングとテストデータセット全体で平均0.296のNDCG@10を達成し、2023-05で全体のスコアは0.395である。
論文 参考訳(メタデータ) (2025-07-11T07:23:08Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Towards Real-World Visual Tracking with Temporal Contexts [64.7981374129495]
時間的文脈を効率的に活用できる2段階フレームワーク(TCTrack)を提案する。
これに基づいて、現実世界の視覚的トラッキング、すなわちTCTrack++のためのより強力なバージョンを提案する。
特徴抽出のために,空間的特徴を高めるために注意に基づく時間適応的畳み込みを提案する。
類似性マップの改良のために,時間的知識を効率的に符号化する適応型時間的変換器を導入する。
論文 参考訳(メタデータ) (2023-08-20T17:59:40Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Understanding Image Retrieval Re-Ranking: A Graph Neural Network
Perspective [52.96911968968888]
本稿では,GNN(High-parallelism Graph Neural Network)関数として再ランク化が可能であることを示す。
market-1501データセットでは、1k40m gpuで89.2sから9.4msへのリランキング処理を高速化し、リアルタイムのポストプロセッシングを容易にする。
論文 参考訳(メタデータ) (2020-12-14T15:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。