論文の概要: DS@GT at LongEval: Evaluating Temporal Performance in Web Search Systems and Topics with Two-Stage Retrieval
- arxiv url: http://arxiv.org/abs/2507.08360v1
- Date: Fri, 11 Jul 2025 07:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.271335
- Title: DS@GT at LongEval: Evaluating Temporal Performance in Web Search Systems and Topics with Two-Stage Retrieval
- Title(参考訳): LongEvalのDS@GT: Web検索システムにおける時間的パフォーマンスの評価と2段階検索によるトピックス
- Authors: Anthony Miyaguchi, Imran Afrulbasha, Aleksandar Pramov,
- Abstract要約: DS@GTコンペティションチームはCLEF 2025のLongEval(LongEval)実験室に参加した。
Qwant Webデータセットの分析には、時間とともにトピックモデリングを伴う探索的データ分析が含まれる。
我々のベストシステムは、トレーニングとテストデータセット全体で平均0.296のNDCG@10を達成し、2023-05で全体のスコアは0.395である。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information Retrieval (IR) models are often trained on static datasets, making them vulnerable to performance degradation as web content evolves. The DS@GT competition team participated in the Longitudinal Evaluation of Model Performance (LongEval) lab at CLEF 2025, which evaluates IR systems across temporally distributed web snapshots. Our analysis of the Qwant web dataset includes exploratory data analysis with topic modeling over time. The two-phase retrieval system employs sparse keyword searches, utilizing query expansion and document reranking. Our best system achieves an average NDCG@10 of 0.296 across the entire training and test dataset, with an overall best score of 0.395 on 2023-05. The accompanying source code for this paper is at https://github.com/dsgt-arc/longeval-2025
- Abstract(参考訳): Information Retrieval(IR)モデルは静的データセットでトレーニングされることが多く、Webコンテンツが進化するにつれてパフォーマンス劣化に対して脆弱になる。
DS@GTコンペティションチームはCLEF 2025のLongEval( Longitudinal Evaluation of Model Performance)ラボに参加した。
Qwant Webデータセットの分析には、時間とともにトピックモデリングを伴う探索的データ分析が含まれる。
この2段階検索システムはスパースキーワード検索を採用し,クエリ拡張と文書の再ランク付けを活用している。
我々のベストシステムは、トレーニングとテストデータセット全体で平均0.296のNDCG@10を達成し、2023-05で全体のスコアは0.395である。
本論文のソースコードはhttps://github.com/dsgt-arc/longeval-2025にある。
関連論文リスト
- Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs [12.412316728679167]
LeetCodeDatasetは、コード生成モデルの評価とトレーニングのための高品質なベンチマークである。
データセットと評価フレームワークはHugging FaceとGithubで公開されている。
論文 参考訳(メタデータ) (2025-04-20T15:28:16Z) - LongEval at CLEF 2025: Longitudinal Evaluation of IR Model Performance [5.4043491660907135]
LongEval Labは、情報検索(IR)における時間的持続性の課題を引き続き探求している。
トレーニングデータから時間的に異なるテストデータとしてモデルパフォーマンスが劣化するかを評価することで、LongEvalはIRシステムにおける時間ダイナミクスの理解を深めようとしている。
2025年版は、Web検索と科学検索の領域における検索品質を経時的に維持できる適応モデルの開発にIRとNLPのコミュニティが関与することを目的としている。
論文 参考訳(メタデータ) (2025-03-11T15:29:41Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Unified Long-Term Time-Series Forecasting Benchmark [0.6526824510982802]
本稿では,時系列予測のための包括的データセットを提案する。
多様な動的システムと実生活記録から得られたデータセットのコレクションを組み込んだ。
多様なシナリオにおいて最も効果的なモデルを決定するために、古典的および最先端のモデルを用いて広範なベンチマーク分析を行う。
本研究は,これらのモデルの性能比較を興味深いものにし,モデルの有効性のデータセット依存性を強調した。
論文 参考訳(メタデータ) (2023-09-27T18:59:00Z) - Benchmarking Performance of Deep Learning Model for Material
Segmentation on Two HPC Systems [0.0]
パフォーマンスデータは、OnyxとVulcaniteという2つのERDC DSRCシステム上で収集される。
Vulcaniteは、多数のベンチマークにおいてより高速なモデル時間を持ち、Onyxよりもパフォーマンスを遅くする可能性のある環境要因も考慮されている。
論文 参考訳(メタデータ) (2023-07-27T15:03:13Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Temporal Graph Benchmark for Machine Learning on Temporal Graphs [54.52243310226456]
テンポラルグラフベンチマーク(TGB)は、困難で多様なベンチマークデータセットのコレクションである。
各データセットをベンチマークし、共通のモデルのパフォーマンスがデータセット間で大きく異なることを発見した。
TGBは、再現可能でアクセス可能な時間グラフ研究のための自動機械学習パイプラインを提供する。
論文 参考訳(メタデータ) (2023-07-03T13:58:20Z) - Exploring the Practicality of Generative Retrieval on Dynamic Corpora [41.223804434693875]
本稿では,自己回帰型言語モデルをIR問題に適用する生成検索(GR)に焦点を当てる。
StreamingQAベンチマークの結果、GRは進化的知識(4-11%)に適応し、時間的情報による学習知識が堅牢で、FLOP(x6)、インデックス時間(x6)、ストレージフットプリント(x4)の点で効率的であることが示されている。
本稿では,動的環境における実用的な赤外線システムにおけるGRの可能性について述べる。
論文 参考訳(メタデータ) (2023-05-27T16:05:00Z) - Networked Time Series Prediction with Incomplete Data [59.45358694862176]
我々は、歴史と未来の両方で欠落した値を持つ不完全なデータでトレーニングできる新しいディープラーニングフレームワークであるNetS-ImpGANを提案する。
3つの実世界のデータセットに対して、異なるパターンと欠落率で広範な実験を行う。
論文 参考訳(メタデータ) (2021-10-05T18:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。