論文の概要: EXAMS: A Multi-Subject High School Examinations Dataset for
Cross-Lingual and Multilingual Question Answering
- arxiv url: http://arxiv.org/abs/2011.03080v1
- Date: Thu, 5 Nov 2020 20:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:13:13.064233
- Title: EXAMS: A Multi-Subject High School Examinations Dataset for
Cross-Lingual and Multilingual Question Answering
- Title(参考訳): EXAMS: 言語横断・多言語質問応答のための多目的高校試験データセット
- Authors: Momchil Hardalov, Todor Mihaylov, Dimitrina Zlatkova, Yoan Dinkov,
Ivan Koychev, Preslav Nakov
- Abstract要約: EXAMSは、高校試験のための多言語および多言語質問応答のための新しいベンチマークデータセットである。
我々は16言語で24,000以上の高品質の高校試験の質問を収集し、自然科学・社会科学の8つの言語家族と24の教科をカバーした。
- 参考スコア(独自算出の注目度): 22.926709247193724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose EXAMS -- a new benchmark dataset for cross-lingual and
multilingual question answering for high school examinations. We collected more
than 24,000 high-quality high school exam questions in 16 languages, covering 8
language families and 24 school subjects from Natural Sciences and Social
Sciences, among others.
EXAMS offers a fine-grained evaluation framework across multiple languages
and subjects, which allows precise analysis and comparison of various models.
We perform various experiments with existing top-performing multilingual
pre-trained models and we show that EXAMS offers multiple challenges that
require multilingual knowledge and reasoning in multiple domains. We hope that
EXAMS will enable researchers to explore challenging reasoning and knowledge
transfer methods and pre-trained models for school question answering in
various languages which was not possible before. The data, code, pre-trained
models, and evaluation are available at https://github.com/mhardalov/exams-qa.
- Abstract(参考訳): 高校試験におけるクロスランガルおよび多言語質問応答のための新しいベンチマークデータセットEXAMSを提案する。
我々は16言語で24,000以上の高品質の高校試験質問を収集し、自然科学・社会科学の8つの言語家族と24の教科をカバーした。
EXAMSは、複数の言語と主題にわたるきめ細かい評価フレームワークを提供し、様々なモデルの正確な分析と比較を可能にする。
既存の多言語事前学習モデルを用いて様々な実験を行い、複数のドメインにおける多言語知識と推論を必要とする複数の課題をEXAMSがもたらすことを示した。
EXAMSによって、これまで不可能だった様々な言語での学校質問応答のための、難解な推論と知識伝達手法と事前学習モデルの探求が可能になることを願っている。
データ、コード、事前学習されたモデル、評価はhttps://github.com/mhardalov/exams-qaで利用可能である。
関連論文リスト
- CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data [31.324617466692754]
CJEvalは中国の中学校のエクサム評価に基づくベンチマークである。
26,136個のサンプルから成っている。
このベンチマークを用いて,LLMの潜在的な応用性を評価し,その性能を総合的に分析した。
論文 参考訳(メタデータ) (2024-09-24T16:00:28Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.31649801849329]
EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。
自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。
質問は7つの言語ファミリーから11の言語で行われます。
論文 参考訳(メタデータ) (2024-03-15T15:08:39Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation
over More Languages and Beyond [89.54151859266202]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark
for Chinese Large Language Models [35.17226595231825]
M3KE(M3KE)は、多層多目的知識評価ベンチマークである。
中国語の大規模言語モデルによって得られた知識を測定するために開発された。
71のタスクから20,477の質問を集めました。
論文 参考訳(メタデータ) (2023-05-17T14:56:31Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。