論文の概要: The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants
- arxiv url: http://arxiv.org/abs/2308.16884v1
- Date: Thu, 31 Aug 2023 17:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 13:32:58.756656
- Title: The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants
- Title(参考訳): Belebeleベンチマーク:122の言語変数における並列読み込みデータセット
- Authors: Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya
Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke
Zettlemoyer, Madian Khabsa
- Abstract要約: 私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
- 参考スコア(独自算出の注目度): 82.6462524808751
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Belebele, a multiple-choice machine reading comprehension (MRC)
dataset spanning 122 language variants. Significantly expanding the language
coverage of natural language understanding (NLU) benchmarks, this dataset
enables the evaluation of text models in high-, medium-, and low-resource
languages. Each question is based on a short passage from the Flores-200
dataset and has four multiple-choice answers. The questions were carefully
curated to discriminate between models with different levels of general
language comprehension. The English dataset on its own proves difficult enough
to challenge state-of-the-art language models. Being fully parallel, this
dataset enables direct comparison of model performance across all languages. We
use this dataset to evaluate the capabilities of multilingual masked language
models (MLMs) and large language models (LLMs). We present extensive results
and find that despite significant cross-lingual transfer in English-centric
LLMs, much smaller MLMs pretrained on balanced multilingual data still
understand far more languages. We also observe that larger vocabulary size and
conscious vocabulary construction correlate with better performance on
low-resource languages. Overall, Belebele opens up new avenues for evaluating
and analyzing the multilingual capabilities of NLP systems.
- Abstract(参考訳): 本稿では,122言語にまたがるMultiple-choice Machine read comprehension (MRC)データセットについて述べる。
このデータセットは、自然言語理解(NLU)ベンチマークの言語カバレッジを著しく拡大し、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
各質問はFlores-200データセットからの短いパスに基づいており、複数の回答が4つある。
質問は、言語理解のレベルが異なるモデル間で識別するために慎重に収集された。
英語のデータセット自体が、最先端の言語モデルに挑戦するのは難しいことを証明している。
完全な並列性を持つこのデータセットは、すべての言語でモデルパフォーマンスを直接比較することができる。
このデータセットを用いて、多言語マスキング言語モデル(MLM)と大規模言語モデル(LLM)の機能を評価する。
英語中心のllmでは言語間移動が著しいにもかかわらず、バランスのとれた多言語データに基づいて事前学習されたmlmは、まだまだ多くの言語を理解できていることが判明した。
また,より大きい語彙サイズと意識的な語彙構成は,低リソース言語の性能と相関することを示した。
全体として、BelebeleはNLPシステムの多言語機能の評価と解析のための新しい道を開く。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Tagengo: A Multilingual Chat Dataset [3.8073142980733]
74言語で70k以上のプロンプト応答対の高品質なデータセットを提示する。
このデータセットを使って、最先端のオープンソースLLMをトレーニングし、マルチ言語でチャットします。
論文 参考訳(メタデータ) (2024-05-21T09:06:36Z) - SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic
Classification in 200+ Languages and Dialects [9.501383449039142]
我々は200の言語と方言のトピック分類のための大規模ベンチマークデータセットであるSIB-200を開発した。
SIB-200でカバーされている多くの言語に対して、これは自然言語理解のための最初の公開評価データセットである。
その結果、多言語モデル、表現不足言語家族、アフリカ、アメリカ、オセアニア、東南アジアの言語が事前学習中に見つからない言語は、トピック分類データセット上で最も低いパフォーマンスを持つことが多いことがわかった。
論文 参考訳(メタデータ) (2023-09-14T05:56:49Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。