論文の概要: NorQuAD: Norwegian Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2305.01957v1
- Date: Wed, 3 May 2023 08:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:42:47.539816
- Title: NorQuAD: Norwegian Question Answering Dataset
- Title(参考訳): NorQuAD: ノルウェーの質問回答データセット
- Authors: Sardana Ivanova, Fredrik Aas Andreassen, Matias Jentoft, Sondre Wold,
Lilja {\O}vrelid
- Abstract要約: データセットは、手動で作成した4,752組の質問応答ペアで構成されている。
本稿では,複数の言語モデルとノルウェーの単言語モデルを比較し,その性能を比較した。
データセットは無償で提供される。
- 参考スコア(独自算出の注目度): 0.03281128493853064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we present NorQuAD: the first Norwegian question answering
dataset for machine reading comprehension. The dataset consists of 4,752
manually created question-answer pairs. We here detail the data collection
procedure and present statistics of the dataset. We also benchmark several
multilingual and Norwegian monolingual language models on the dataset and
compare them against human performance. The dataset will be made freely
available.
- Abstract(参考訳): 本稿では,norquad: the first norwegian question answering dataset for machine reading comprehensionについて述べる。
データセットは4,752人で作成されている。
ここでは、データ収集手順とデータセットの統計について詳述する。
また、複数の多言語およびノルウェーの単言語モデルについてベンチマークを行い、人間のパフォーマンスと比較した。
データセットは無償で提供される。
関連論文リスト
- A Collection of Question Answering Datasets for Norwegian [6.149436325733799]
このデータは、世界知識、常識推論、真理性、ノルウェーに関する知識など、幅広いスキルと知識ドメインをカバーしている。
私たちのデータセットは10万以上の質問応答ペアで構成されており、ネイティブスピーカーによって作成されています。
ほとんどのLMは、ニノルスクよりもボクマールの方が優れており、常識的推論にほとんど苦労しており、しばしば疑問に対する答えを生み出すことに不合理である。
論文 参考訳(メタデータ) (2025-01-19T17:42:48Z) - Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles [8.083472758337559]
ノルウェーのニュース記事の高品質な人間によるサマリーのデータセットを紹介する。
このデータセットは、生成言語モデルの抽象的な要約能力のベンチマークを目的としている。
論文 参考訳(メタデータ) (2025-01-13T22:08:29Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。
このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。
GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文 参考訳(メタデータ) (2023-12-03T08:09:45Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.687459576800633]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。
本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文 参考訳(メタデータ) (2023-03-30T06:42:22Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - NorDiaChange: Diachronic Semantic Change Dataset for Norwegian [63.65426535861836]
NorDiaChangeはノルウェーにおける最初のダイアクロニックなセマンティックチェンジデータセットである。
ノルウェーの約80の名詞が、時間とともに格付けされた意味変化で注釈付けされている。
論文 参考訳(メタデータ) (2022-01-13T18:27:33Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。