論文の概要: NorQuAD: Norwegian Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2305.01957v1
- Date: Wed, 3 May 2023 08:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:42:47.539816
- Title: NorQuAD: Norwegian Question Answering Dataset
- Title(参考訳): NorQuAD: ノルウェーの質問回答データセット
- Authors: Sardana Ivanova, Fredrik Aas Andreassen, Matias Jentoft, Sondre Wold,
Lilja {\O}vrelid
- Abstract要約: データセットは、手動で作成した4,752組の質問応答ペアで構成されている。
本稿では,複数の言語モデルとノルウェーの単言語モデルを比較し,その性能を比較した。
データセットは無償で提供される。
- 参考スコア(独自算出の注目度): 0.03281128493853064
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we present NorQuAD: the first Norwegian question answering
dataset for machine reading comprehension. The dataset consists of 4,752
manually created question-answer pairs. We here detail the data collection
procedure and present statistics of the dataset. We also benchmark several
multilingual and Norwegian monolingual language models on the dataset and
compare them against human performance. The dataset will be made freely
available.
- Abstract(参考訳): 本稿では,norquad: the first norwegian question answering dataset for machine reading comprehensionについて述べる。
データセットは4,752人で作成されている。
ここでは、データ収集手順とデータセットの統計について詳述する。
また、複数の多言語およびノルウェーの単言語モデルについてベンチマークを行い、人間のパフォーマンスと比較した。
データセットは無償で提供される。
関連論文リスト
- Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - HaVQA: A Dataset for Visual Question Answering and Multimodal Research
in Hausa Language [1.3476084087665703]
HaVQAは、Hausa言語における視覚的質問応答タスクのための最初のマルチモーダルデータセットである。
データセットは、6,022の英問合せペアを手動で翻訳することで作成され、Visual Genomeデータセットから1,555のユニークな画像に関連付けられている。
論文 参考訳(メタデータ) (2023-05-28T10:55:31Z) - ScandEval: A Benchmark for Scandinavian Natural Language Processing [0.0]
本稿では,スカンジナビア語における4つのタスクに対して事前学習したモデルをベンチマークする,スカンジナビアのベンチマークプラットフォームであるScandEvalを紹介する。
言語的受容性と質問応答という2つのタスクで使用されるデータセットは新しいものだ。
我々は,Hugging Face Hubにアップロードされたモデルを,再現可能な結果でベンチマークすることができるPythonパッケージとコマンドラインインターフェースであるScandevalを開発し,リリースする。
論文 参考訳(メタデータ) (2023-04-03T11:51:46Z) - The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.687459576800633]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。
本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文 参考訳(メタデータ) (2023-03-30T06:42:22Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Korean-Specific Dataset for Table Question Answering [3.7056358801102682]
日本語で書かれた質問応答のための韓国語固有のデータセットを構築した。
韓国のテーブル質問回答コーパスは、クラウドソース労働者による70万対の質問と回答で構成されている。
データセットをGitHubリポジトリ経由で公開しています。
論文 参考訳(メタデータ) (2022-01-17T05:47:44Z) - NorDiaChange: Diachronic Semantic Change Dataset for Norwegian [63.65426535861836]
NorDiaChangeはノルウェーにおける最初のダイアクロニックなセマンティックチェンジデータセットである。
ノルウェーの約80の名詞が、時間とともに格付けされた意味変化で注釈付けされている。
論文 参考訳(メタデータ) (2022-01-13T18:27:33Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。