論文の概要: NeuCLIRBench: A Modern Evaluation Collection for Monolingual, Cross-Language, and Multilingual Information Retrieval
- arxiv url: http://arxiv.org/abs/2511.14758v1
- Date: Tue, 18 Nov 2025 18:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.275845
- Title: NeuCLIRBench: A Modern Evaluation Collection for Monolingual, Cross-Language, and Multilingual Information Retrieval
- Title(参考訳): NeuCLIRBench: モノリンガル、クロスランゲージ、多言語情報検索のための最新の評価コレクション
- Authors: Dawn Lawrie, James Mayfield, Eugene Yang, Andrew Yates, Sean MacAvaney, Ronak Pradeep, Scott Miller, Paul McNamee, Luca Soldani,
- Abstract要約: 本稿では,言語間および多言語検索のための評価コレクションであるNeuCLIRBenchについて述べる。
コレクションは中国語、ペルシア語、ロシア語で書かれた文書と、英語に翻訳された同じ文書で構成されている。
このコレクションは、英語、中国語、ペルシア語、ロシア語でのモノリンガル検索を含むいくつかの検索シナリオをサポートしている。
- 参考スコア(独自算出の注目度): 39.153319100127845
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To measure advances in retrieval, test collections with relevance judgments that can faithfully distinguish systems are required. This paper presents NeuCLIRBench, an evaluation collection for cross-language and multilingual retrieval. The collection consists of documents written natively in Chinese, Persian, and Russian, as well as those same documents machine translated into English. The collection supports several retrieval scenarios including: monolingual retrieval in English, Chinese, Persian, or Russian; cross-language retrieval with English as the query language and one of the other three languages as the document language; and multilingual retrieval, again with English as the query language and relevant documents in all three languages. NeuCLIRBench combines the TREC NeuCLIR track topics of 2022, 2023, and 2024. The 250,128 judgments across approximately 150 queries for the monolingual and cross-language tasks and 100 queries for multilingual retrieval provide strong statistical discriminatory power to distinguish retrieval approaches. A fusion baseline of strong neural retrieval systems is included with the collection so that developers of reranking algorithms are no longer reliant on BM25 as their first-stage retriever. NeuCLIRBench is publicly available.
- Abstract(参考訳): 検索の進歩を測るためには、システムに忠実に区別できる関連判断を伴うテストコレクションが必要である。
本稿では,言語間および多言語検索のための評価コレクションであるNeuCLIRBenchについて述べる。
このコレクションは、中国語、ペルシア語、ロシア語でネイティブに書かれた文書と、同じ機械で英語に翻訳された文書で構成されている。
このコレクションは、英語、中国語、ペルシア語、ロシア語でのモノリンガル検索、クェリ言語としての英語によるクロスランガル検索、ドキュメント言語としての他の3言語のうちの1つ、そして、クェリ言語としての英語と関連する3言語すべてにおける関連文書によるマルチランガル検索など、いくつかの検索シナリオをサポートしている。
NeuCLIRBenchは、TREC NeuCLIRの2022年、2023年、2024年のトラックトピックを組み合わせている。
モノリンガルおよびクロスランガルタスクに対する約150のクエリに対する250,128の判定と多言語検索のための100のクエリは、検索アプローチを識別するために強力な統計的識別力を提供する。
強力なニューラル検索システムの融合ベースラインは、アルゴリズムを再ランク付けする開発者がBM25をファーストステージレトリバーとして依存しないように、コレクションに含まれている。
NeuCLIRBenchは公開されている。
関連論文リスト
- Bridging Language Gaps: Advances in Cross-Lingual Information Retrieval with Multilingual LLMs [0.19116784879310025]
言語間情報検索(CLIR)は、元のクエリとは異なる言語で書かれた関連文書を取得するという課題に対処する。
近年の進歩は、翻訳に基づく手法から埋め込みに基づくアプローチへと移行している。
この調査は、初期の翻訳に基づく手法から、最先端の埋め込み駆動および生成技術への展開の包括的概要を提供する。
論文 参考訳(メタデータ) (2025-10-01T13:50:05Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents [2.0277446818410994]
本稿では,言語間の学術的探索を評価するための新しいデータセットであるCLIRuditを提案する。
データセットは、カナダのパブリッシングプラットフォームである'Erudit'のバイリンガルな記事メタデータを使って構築されている。
論文 参考訳(メタデータ) (2025-04-22T20:55:08Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples [64.79218405438871]
XAMPLER: 言語横断学習の課題に対処するための手法であるクロス言語実例検索法を紹介する。
XAMPLERはまず、多言語小言語モデルであるGlot500に基づいてレトリバーを訓練する。
ターゲット言語の文脈内学習の例として、英語の例を直接検索することができる。
論文 参考訳(メタデータ) (2024-05-08T15:13:33Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。