論文の概要: Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages
- arxiv url: http://arxiv.org/abs/2210.09984v1
- Date: Tue, 18 Oct 2022 16:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:26:45.424739
- Title: Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages
- Title(参考訳): MIRACLの作成: 言語連続体における多言語情報検索
- Authors: Xinyu Zhang, Nandan Thakur, Odunayo Ogundepo, Ehsan Kamalloo, David
Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Mehdi Rezagholizadeh, Jimmy Lin
- Abstract要約: MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
- 参考スコア(独自算出の注目度): 62.730361829175415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
is a multilingual dataset we have built for the WSDM 2023 Cup challenge that
focuses on ad hoc retrieval across 18 different languages, which collectively
encompass over three billion native speakers around the world. These languages
have diverse typologies, originate from many different language families, and
are associated with varying amounts of available resources -- including what
researchers typically characterize as high-resource as well as low-resource
languages. Our dataset is designed to support the creation and evaluation of
models for monolingual retrieval, where the queries and the corpora are in the
same language. In total, we have gathered over 700k high-quality relevance
judgments for around 77k queries over Wikipedia in these 18 languages, where
all assessments have been performed by native speakers hired by our team. Our
goal is to spur research that will improve retrieval across a continuum of
languages, thus enhancing information access capabilities for diverse
populations around the world, particularly those that have been traditionally
underserved. This overview paper describes the dataset and baselines that we
share with the community. The MIRACL website is live at http://miracl.ai/.
- Abstract(参考訳): miracl(multilingual information retrieval across a continuum of languages)は、私たちがwsdm 2023 cup challengeのために構築した多言語データセットで、世界中の30億以上のネイティブスピーカーを包含する18の言語を対象としたアドホックな検索にフォーカスしています。
これらの言語は多種多様で、多くの異なる言語族が起源であり、研究者が典型的に高リソースと低リソース言語と特徴づけるものを含む、様々な利用可能なリソースと関連付けられている。
我々のデータセットは,クエリとコーパスが同一言語であるモノリンガル検索モデルの作成と評価を支援するように設計されている。
この18の言語で、wikipedia上で7万5000のクエリに対して700万以上の高品質な妥当性判断を収集し、すべての評価は、私たちのチームによって雇われたネイティブスピーカーによって行われました。
私たちの目標は、世界中の多様な人々、特に伝統的に保存されていない人々に対する情報アクセス能力を高めるために、言語連続体における検索を改善する研究を促進することです。
本稿では,コミュニティと共有するデータセットとベースラインについて概説する。
MIRACLのウェブサイトはhttp://miracl.ai/.comで公開されている。
関連論文リスト
- Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - M2DS: Multilingual Dataset for Multi-document Summarisation [0.5071800070021028]
MDS(Multi-document Summarisation)は、顧客レビュー、学術論文、医療および法律文書、ニュース記事を含む多様なデータセットを提供する。
しかし、これらのデータセットの英語中心の性質は、今日のグローバル化されたデジタルランドスケープにおいて、多言語データセットの顕著な空白を生み出している。
本稿では、M2DSについて、その特異な多言語的側面を強調し、我々のデータセットで評価された最先端のMDSモデルからのベースラインスコアを含む。
論文 参考訳(メタデータ) (2024-07-17T06:25:51Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment
classification in low-resource languages [0.0]
本研究では,事前学習中に見つからない言語における感情分析の資源として,多言語大言語モデルをいかに活用できるかを示す。
言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。
最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。
論文 参考訳(メタデータ) (2023-04-27T13:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。