論文の概要: WSDM Cup 2026 Multilingual Retrieval: A Low-Cost Multi-Stage Retrieval Pipeline
- arxiv url: http://arxiv.org/abs/2602.16989v1
- Date: Thu, 19 Feb 2026 01:28:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.591923
- Title: WSDM Cup 2026 Multilingual Retrieval: A Low-Cost Multi-Stage Retrieval Pipeline
- Title(参考訳): WSDMカップ2026 低コスト多段階検索パイプライン
- Authors: Chentong Hao, Minmao Wang,
- Abstract要約: 本稿では,WSDMカップ2026の多言語検索のための低コスト検索システムを提案する。
英語のクェリは、中国語、ペルシア語、ロシア語の約1000万件のニュース記事から関連文書を検索するために使用される。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a low-cost retrieval system for the WSDM Cup 2026 multilingual retrieval task, where English queries are used to retrieve relevant documents from a collection of approximately ten million news articles in Chinese, Persian, and Russian, and to output the top-1000 ranked results for each query. We follow a four-stage pipeline that combines LLM-based GRF-style query expansion with BM25 candidate retrieval, dense ranking using long-text representations from jina-embeddings-v4, and pointwise re-ranking of the top-20 candidates using Qwen3-Reranker-4B while preserving the dense order for the remaining results. On the official evaluation, the system achieves nDCG@20 of 0.403 and Judged@20 of 0.95. We further conduct extensive ablation experiments to quantify the contribution of each stage and to analyze the effectiveness of query expansion, dense ranking, and top-$k$ reranking under limited compute budgets.
- Abstract(参考訳): 本稿では,中国語,ペルシア語,ロシア語の約1000万件のニュース記事から英語クエリを用いて関連文書を検索し,クエリ毎に上位1000件の検索結果を出力する,WSDMカップ2026の低コスト検索システムを提案する。
我々は,LLMに基づくGRFスタイルのクエリ拡張とBM25候補検索,jina-embeddings-v4からの長文表現を用いた高階ランク付け,Qwen3-Reranker-4Bを用いた上位20候補の高階ランク付けを行う4段階のパイプラインに従う。
公式評価では,0.403のnDCG@20,0.95のiffd@20を達成している。
さらに,各ステージのコントリビューションの定量化と,クエリ拡張,厳密なランク付け,および計算予算の限定した上位k$の再ランク化の有効性を解析するために,広範囲なアブレーション実験を実施している。
関連論文リスト
- SAGE: Benchmarking and Improving Retrieval for Deep Research Agents [60.53966065867568]
SAGEは4つの科学領域にわたる1200のクエリからなる科学文献検索のためのベンチマークであり、20万の論文検索コーパスを備える。
6つのディープ・リサーチ・エージェントを評価し,全てのシステムが推論集約的な検索に苦しむことを発見した。
BM25は、既存のエージェントがキーワード指向のサブクエリを生成するため、LLMベースのレトリバーを約30%上回っている。
論文 参考訳(メタデータ) (2026-02-05T18:25:24Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - AKCIT-FN at CheckThat! 2025: Switching Fine-Tuned SLMs and LLM Prompting for Multilingual Claim Normalization [0.5274891943689054]
クレームの正規化は、自動ファクトチェックパイプラインにおける重要なステップである。
CLEF-2025 CheckThat! Task2は20言語にわたるクレーム正規化を行うシステムに挑戦する。
論文 参考訳(メタデータ) (2025-09-15T01:19:49Z) - InsertRank: LLMs can reason over BM25 scores to Improve Listwise Reranking [3.1125398490785217]
InsertRankはLLMベースのリランカで、リランク中のBM25スコアなどの語彙信号を活用して、検索性能をさらに向上する。
Deepseek-R1では、InsertRankはBRIGHTベンチマークで37.5点、R2MEDベンチマークで51.1点を獲得し、以前の手法を上回りました。
論文 参考訳(メタデータ) (2025-06-17T01:04:45Z) - Deep Retrieval at CheckThat! 2025: Identifying Scientific Papers from Implicit Social Media Mentions via Hybrid Retrieval and Re-Ranking [4.275139302875217]
CLEF CheckThat! 2025コンペティションのサブタスク4bに対するDeep Retrievalチームの方法論と結果を示す。
本稿では,語彙的精度,意味的一般化,文脈的再ランク付けを併用したハイブリッド検索パイプラインを提案する。
提案手法は, 開発セットで76.46%, 隠されたテストセットで66.43%の平均相反ランクを5 (MRR@5) 達成する。
論文 参考訳(メタデータ) (2025-05-29T08:55:39Z) - Generative Relevance Feedback and Convergence of Adaptive Re-Ranking: University of Glasgow Terrier Team at TREC DL 2023 [20.95345024616033]
本稿では,TREC 2023 Deep Learning Trackへの参加について述べる。
我々は、ゼロショットと擬似関連の両方のフィードバック設定において、大きな言語モデルから生成的関連性フィードバックを適用するランを提出した。
生成的クエリ再構成の適用により,性能が向上した。
論文 参考訳(メタデータ) (2024-05-02T09:36:00Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。