論文の概要: Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages
- arxiv url: http://arxiv.org/abs/2210.09984v1
- Date: Tue, 18 Oct 2022 16:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:26:45.424739
- Title: Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages
- Title(参考訳): MIRACLの作成: 言語連続体における多言語情報検索
- Authors: Xinyu Zhang, Nandan Thakur, Odunayo Ogundepo, Ehsan Kamalloo, David
Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Mehdi Rezagholizadeh, Jimmy Lin
- Abstract要約: MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
- 参考スコア(独自算出の注目度): 62.730361829175415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
is a multilingual dataset we have built for the WSDM 2023 Cup challenge that
focuses on ad hoc retrieval across 18 different languages, which collectively
encompass over three billion native speakers around the world. These languages
have diverse typologies, originate from many different language families, and
are associated with varying amounts of available resources -- including what
researchers typically characterize as high-resource as well as low-resource
languages. Our dataset is designed to support the creation and evaluation of
models for monolingual retrieval, where the queries and the corpora are in the
same language. In total, we have gathered over 700k high-quality relevance
judgments for around 77k queries over Wikipedia in these 18 languages, where
all assessments have been performed by native speakers hired by our team. Our
goal is to spur research that will improve retrieval across a continuum of
languages, thus enhancing information access capabilities for diverse
populations around the world, particularly those that have been traditionally
underserved. This overview paper describes the dataset and baselines that we
share with the community. The MIRACL website is live at http://miracl.ai/.
- Abstract(参考訳): miracl(multilingual information retrieval across a continuum of languages)は、私たちがwsdm 2023 cup challengeのために構築した多言語データセットで、世界中の30億以上のネイティブスピーカーを包含する18の言語を対象としたアドホックな検索にフォーカスしています。
これらの言語は多種多様で、多くの異なる言語族が起源であり、研究者が典型的に高リソースと低リソース言語と特徴づけるものを含む、様々な利用可能なリソースと関連付けられている。
我々のデータセットは,クエリとコーパスが同一言語であるモノリンガル検索モデルの作成と評価を支援するように設計されている。
この18の言語で、wikipedia上で7万5000のクエリに対して700万以上の高品質な妥当性判断を収集し、すべての評価は、私たちのチームによって雇われたネイティブスピーカーによって行われました。
私たちの目標は、世界中の多様な人々、特に伝統的に保存されていない人々に対する情報アクセス能力を高めるために、言語連続体における検索を改善する研究を促進することです。
本稿では,コミュニティと共有するデータセットとベースラインについて概説する。
MIRACLのウェブサイトはhttp://miracl.ai/.comで公開されている。
関連論文リスト
- Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic
Classification in 200+ Languages and Dialects [9.501383449039142]
我々は200の言語と方言のトピック分類のための大規模ベンチマークデータセットであるSIB-200を開発した。
SIB-200でカバーされている多くの言語に対して、これは自然言語理解のための最初の公開評価データセットである。
その結果、多言語モデル、表現不足言語家族、アフリカ、アメリカ、オセアニア、東南アジアの言語が事前学習中に見つからない言語は、トピック分類データセット上で最も低いパフォーマンスを持つことが多いことがわかった。
論文 参考訳(メタデータ) (2023-09-14T05:56:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment
classification in low-resource languages [0.0]
本研究では,事前学習中に見つからない言語における感情分析の資源として,多言語大言語モデルをいかに活用できるかを示す。
言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。
最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。
論文 参考訳(メタデータ) (2023-04-27T13:51:18Z) - Multilingual AMR-to-Text Generation [22.842874899794996]
20の異なる言語で生成する多言語AMR-to-textモデルを作成する。
自動メトリクスに基づく18言語の場合、我々の多言語モデルは単一の言語を生成するベースラインを超えます。
我々は、人間の評価を用いて形態や単語の順序を正確に把握する多言語モデルの能力を分析し、母語話者が我々の世代を流動的であると判断する。
論文 参考訳(メタデータ) (2020-11-10T22:47:14Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。