論文の概要: mRobust04: A Multilingual Version of the TREC Robust 2004 Benchmark
- arxiv url: http://arxiv.org/abs/2209.13738v1
- Date: Tue, 27 Sep 2022 23:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 15:51:42.530737
- Title: mRobust04: A Multilingual Version of the TREC Robust 2004 Benchmark
- Title(参考訳): mRobust04:TREC Robust 2004ベンチマークの多言語版
- Authors: Vitor Jeronymo, Mauricio Nascimento, Roberto Lotufo and Rodrigo
Nogueira
- Abstract要約: 本稿では,Google Translateを用いて8言語に翻訳されたロバスト04の多言語版であるmRobust04を提案する。
また、このデータセット上で3つの異なる多言語検索結果を提供する。
- 参考スコア(独自算出の注目度): 4.9069311006119865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust 2004 is an information retrieval benchmark whose large number of
judgments per query make it a reliable evaluation dataset. In this paper, we
present mRobust04, a multilingual version of Robust04 that was translated to 8
languages using Google Translate. We also provide results of three different
multilingual retrievers on this dataset. The dataset is available at
https://huggingface.co/datasets/unicamp-dl/mrobust
- Abstract(参考訳): robust 2004は情報検索ベンチマークであり、クエリ毎の判断回数が多く、信頼性の高い評価データセットとなっている。
本稿では,Google Translateを用いて8言語に翻訳されたロバスト04の多言語版であるmRobust04を提案する。
また、このデータセット上で3つの異なる多言語検索結果を提供する。
データセットはhttps://huggingface.co/datasets/unicamp-dl/mrobustで利用可能である。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - MADLAD-400: A Multilingual And Document-Level Large Audited Dataset [66.12330208082442]
我々はCommonCrawlをベースとした,手動で監査された汎用ドメイン3TトークンモノリンガルデータセットMADLAD-400を紹介する。
我々は,MADLAD-400の自己監査による限界と,データセット作成プロセスにおけるデータ監査の役割について論じる。
論文 参考訳(メタデータ) (2023-09-09T02:34:01Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Constructing Multilingual Code Search Dataset Using Neural Machine
Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。
その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文 参考訳(メタデータ) (2023-06-27T16:42:36Z) - ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment [12.704628912075218]
本稿では、アラビア語、英語、フランス語、ヒンディー語、ロシア語で9757文の人間のアノテーションを付加した多言語マルチドメインデータセットであるReadMe++を紹介する。
ReadMe++を使って、教師付き、教師なし、および少数ショットプロンプト設定において、多言語および単言語言語モデルをベンチマークする。
本実験は,ReadMe++で学習したモデルによる優れたドメイン一般化と言語間変換能力の強化によるエキサイティングな結果を示す。
論文 参考訳(メタデータ) (2023-05-23T18:37:30Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.2633064526968]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。
データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文 参考訳(メタデータ) (2021-06-17T05:09:54Z) - MLS: A Large-Scale Multilingual Dataset for Speech Research [37.803100082550294]
データセットは、LibriVoxの読み出しオーディオブックに由来する。
英語の約44.5K時間と、他の言語で約6K時間を含む8つの言語で構成されている。
論文 参考訳(メタデータ) (2020-12-07T01:53:45Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。