論文の概要: NeuCLIRTech: Chinese Monolingual and Cross-Language Information Retrieval Evaluation in a Challenging Domain
- arxiv url: http://arxiv.org/abs/2602.05334v1
- Date: Thu, 05 Feb 2026 05:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.777781
- Title: NeuCLIRTech: Chinese Monolingual and Cross-Language Information Retrieval Evaluation in a Challenging Domain
- Title(参考訳): NeuCLIRTech:中国の単言語・言語横断情報検索
- Authors: Dawn Lawrie, James Mayfield, Eugene Yang, Andrew Yates, Sean MacAvaney, Ronak Pradeep, Scott Miller, Paul McNamee, Luca Soldaini,
- Abstract要約: 本稿では,技術情報に対するクロスランゲージ検索のための評価収集であるNeuCLIRTechについて述べる。
このコレクションは中国語で書かれた技術文書と、その機械が英語に翻訳されたもので構成されている。
このコレクションは中国語での単言語検索と、クエリ言語としての英語による言語横断検索という2つの検索シナリオをサポートしている。
- 参考スコア(独自算出の注目度): 49.3943974580576
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Measuring advances in retrieval requires test collections with relevance judgments that can faithfully distinguish systems. This paper presents NeuCLIRTech, an evaluation collection for cross-language retrieval over technical information. The collection consists of technical documents written natively in Chinese and those same documents machine translated into English. It includes 110 queries with relevance judgments. The collection supports two retrieval scenarios: monolingual retrieval in Chinese, and cross-language retrieval with English as the query language. NeuCLIRTech combines the TREC NeuCLIR track topics of 2023 and 2024. The 110 queries with 35,962 document judgments provide strong statistical discriminatory power when trying to distinguish retrieval approaches. A fusion baseline of strong neural retrieval systems is included so that developers of reranking algorithms are not reliant on BM25 as their first stage retriever. The dataset and artifacts are released on Huggingface Datasets
- Abstract(参考訳): 検索の進歩を測定するには、システムを忠実に区別できる関連判断を伴うテストコレクションが必要である。
本稿では,技術情報に対するクロスランゲージ検索のための評価収集であるNeuCLIRTechについて述べる。
このコレクションは、中国語でネイティブに書かれた技術文書と、その機械が英語に翻訳されたもので構成されている。
関連判断を伴う110のクエリを含む。
このコレクションは中国語での単言語検索と、クエリ言語としての英語による言語横断検索という2つの検索シナリオをサポートしている。
NeuCLIRTechは、TREC NeuCLIRの2023年と2024年のトラックトピックを組み合わせている。
35,962の文書判定を伴う110のクエリは、検索アプローチの識別を試みる際に、強い統計的識別力を与える。
強力なニューラル検索システムの融合ベースラインは、アルゴリズムを再ランク付けする開発者がBM25をファーストステージレトリバーとして依存しないように含められている。
データセットとアーティファクトがHuggingface Datasetsでリリース
関連論文リスト
- NeuCLIRBench: A Modern Evaluation Collection for Monolingual, Cross-Language, and Multilingual Information Retrieval [39.153319100127845]
本稿では,言語間および多言語検索のための評価コレクションであるNeuCLIRBenchについて述べる。
コレクションは中国語、ペルシア語、ロシア語で書かれた文書と、英語に翻訳された同じ文書で構成されている。
このコレクションは、英語、中国語、ペルシア語、ロシア語でのモノリンガル検索を含むいくつかの検索シナリオをサポートしている。
論文 参考訳(メタデータ) (2025-11-18T18:58:19Z) - Bridging Language Gaps: Advances in Cross-Lingual Information Retrieval with Multilingual LLMs [0.19116784879310025]
言語間情報検索(CLIR)は、元のクエリとは異なる言語で書かれた関連文書を取得するという課題に対処する。
近年の進歩は、翻訳に基づく手法から埋め込みに基づくアプローチへと移行している。
この調査は、初期の翻訳に基づく手法から、最先端の埋め込み駆動および生成技術への展開の包括的概要を提供する。
論文 参考訳(メタデータ) (2025-10-01T13:50:05Z) - CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents [2.0277446818410994]
本稿では,言語間の学術的探索を評価するための新しいデータセットであるCLIRuditを提案する。
データセットは、カナダのパブリッシングプラットフォームである'Erudit'のバイリンガルな記事メタデータを使って構築されている。
論文 参考訳(メタデータ) (2025-04-22T20:55:08Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - HC4: A New Suite of Test Collections for Ad Hoc CLIR [3.816529552690824]
HC4は、アドホックなクロスランゲージ情報検索のための新しいテストコレクションである。
HC4のコレクションには、60のトピックと、中国語とペルシア語それぞれ50万のドキュメント、54のトピックと500万のドキュメントが含まれている。
文書は3段階の関連尺度で判断された。
論文 参考訳(メタデータ) (2022-01-24T22:52:11Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。