論文の概要: HC4: A New Suite of Test Collections for Ad Hoc CLIR
- arxiv url: http://arxiv.org/abs/2201.09992v1
- Date: Mon, 24 Jan 2022 22:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 15:35:17.270369
- Title: HC4: A New Suite of Test Collections for Ad Hoc CLIR
- Title(参考訳): HC4: Ad Hoc CLIR用の新しいテストコレクションスイート
- Authors: Dawn Lawrie and James Mayfield and Douglas Oard and Eugene Yang
- Abstract要約: HC4は、アドホックなクロスランゲージ情報検索のための新しいテストコレクションである。
HC4のコレクションには、60のトピックと、中国語とペルシア語それぞれ50万のドキュメント、54のトピックと500万のドキュメントが含まれている。
文書は3段階の関連尺度で判断された。
- 参考スコア(独自算出の注目度): 3.816529552690824
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: HC4 is a new suite of test collections for ad hoc Cross-Language Information
Retrieval (CLIR), with Common Crawl News documents in Chinese, Persian, and
Russian, topics in English and in the document languages, and graded relevance
judgments. New test collections are needed because existing CLIR test
collections built using pooling of traditional CLIR runs have systematic gaps
in their relevance judgments when used to evaluate neural CLIR methods. The HC4
collections contain 60 topics and about half a million documents for each of
Chinese and Persian, and 54 topics and five million documents for Russian.
Active learning was used to determine which documents to annotate after being
seeded using interactive search and judgment. Documents were judged on a
three-grade relevance scale. This paper describes the design and construction
of the new test collections and provides baseline results for demonstrating
their utility for evaluating systems.
- Abstract(参考訳): HC4はアドホックなCross-Language Information Retrieval(CLIR)のための新しいテストコレクションであり、中国語、ペルシア語、ロシア語のCommon Crawl Newsドキュメント、英語とドキュメント言語におけるトピック、およびグレードドされた関連判断を含んでいる。
従来のCLIR実行のプーリングを使用して構築された既存のCLIRテストコレクションは、神経CLIRメソッドの評価に使用する場合、関連性判断に体系的なギャップがあるため、新しいテストコレクションが必要である。
HC4のコレクションには、60のトピックと、中国語とペルシア語それぞれ50万のドキュメント、54のトピックと500万のドキュメントが含まれている。
対話型検索と判断を用いて,どの文書に注釈を付けるかを決定するために,アクティブラーニングが用いられた。
文書は3段階の関連尺度で判断された。
本稿では,新しいテストコレクションの設計と構築について述べるとともに,システム評価の実用性を実証するためのベースライン結果を提供する。
関連論文リスト
- DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - A Multi-Modal Multilingual Benchmark for Document Image Classification [21.7518357653137]
新たに作成した2つの多言語データセットWIKI-DOCと MultiEUR-DOCLEXを紹介する。
我々は、文書画像分類における未検証設定において、視覚的に豊富な文書理解や文書AIモデルについて研究する。
実験結果から,多言語間移動における多言語文書AIモデルの限界が示された。
論文 参考訳(メタデータ) (2023-10-25T04:35:06Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Multilingual ColBERT-X [11.768656900939048]
ColBERT-Xはクロスランゲージ情報検索(CLIR)のための高密度検索モデルである
CLIRでは、ドキュメントは1つの自然言語で書かれ、クエリは別の自然言語で表現される。
関連するタスクは多言語IR(MLIR)であり、システムは複数の言語で書かれた文書の単一のランクリストを作成する。
論文 参考訳(メタデータ) (2022-09-03T06:02:52Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Detecting Cross-Language Plagiarism using Open Knowledge Graphs [7.378348990383349]
本稿では,多言語検索モデルであるクロスランゲージオントロジーに基づく類似性分析を提案する。
CL-OSAは、オープン知識グラフWikidataから得られたエンティティベクトルとして文書を表す。
ホモニムとスケールを確実に曖昧にし、Webスケールのドキュメントコレクションに適用できるようにします。
論文 参考訳(メタデータ) (2021-11-18T15:23:27Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - Cross-Lingual Document Retrieval with Smooth Learning [31.638708227607214]
言語間文書検索は、クエリの言語が文書の言語と異なる情報検索タスクである。
本稿では,異なる文書言語を用いた言語間検索の性能向上を実現するための,新しいエンドツーエンドロバストフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-02T03:17:39Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。