論文の概要: MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages
- arxiv url: http://arxiv.org/abs/2509.04111v1
- Date: Thu, 04 Sep 2025 11:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.140548
- Title: MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages
- Title(参考訳): MultiWikiQA: 300以上の言語で可読性ベンチマーク
- Authors: Dan Saattrup Smart,
- Abstract要約: 我々は、306言語をカバーするMultiWikiQAと呼ばれる新しい読解理解データセットを導入する。
文脈データはウィキペディアの記事から得られており、LCMが生成した質問とウィキペディアの記事に冗長に現れる回答がある。
我々は,30言語にまたがって生成した質問の流布度をクラウドソースで評価し,質問が質のよいものであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new reading comprehension dataset, dubbed MultiWikiQA, which covers 306 languages. The context data comes from Wikipedia articles, with questions generated by an LLM and the answers appearing verbatim in the Wikipedia articles. We conduct a crowdsourced human evaluation of the fluency of the generated questions across 30 of the languages, providing evidence that the questions are of good quality. We evaluate 6 different language models, both decoder and encoder models of varying sizes, showing that the benchmark is sufficiently difficult and that there is a large performance discrepancy amongst the languages. The dataset and survey evaluations are freely available.
- Abstract(参考訳): 我々は、306言語をカバーするMultiWikiQAと呼ばれる新しい読解理解データセットを導入する。
文脈データはウィキペディアの記事から得られており、LCMが生成した質問とウィキペディアの記事に冗長に現れる回答がある。
我々は,30言語にまたがって生成した質問の流布度をクラウドソースで評価し,質問が質のよいものであることを示す。
異なる大きさのデコーダモデルとエンコーダモデルの両方の6つの異なる言語モデルを評価し、ベンチマークが十分に困難であり、言語間で大きな性能差があることを示す。
データセットと調査評価は無償で利用可能だ。
関連論文リスト
- MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages [17.175361236651906]
我々は、31言語をカバーするLLMの多言語性を評価するための新しいベンチマークであるMultiLoKoを提案する。
我々はMultiLoKoのスコアを11のベースで計算し、マルチリンガルなチャットモデルを市場に出し、平均的なパフォーマンスについて研究する。
局所的データと英訳データを使用することで,最高の演奏モデルに対して20点以上の差が生じることが判明した。
論文 参考訳(メタデータ) (2025-04-14T16:05:59Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain
Question Answering [6.452012363895865]
このデータセットは、質問応答を評価するために、現在最も広い範囲の言語を提供する。
生成的および抽出的質問応答のための様々な最先端手法とベースラインをベンチマークする。
結果は、このデータセットが英語でも、特に低リソース言語では挑戦的であることを示している。
論文 参考訳(メタデータ) (2020-07-30T03:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。