Fugu-MT 論文翻訳(概要): NorQuAD: Norwegian Question Answering Dataset

論文の概要: NorQuAD: Norwegian Question Answering Dataset

arxiv url: http://arxiv.org/abs/2305.01957v1
Date: Wed, 3 May 2023 08:17:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-04 15:42:47.539816
Title: NorQuAD: Norwegian Question Answering Dataset
Title（参考訳）: NorQuAD: ノルウェーの質問回答データセット
Authors: Sardana Ivanova, Fredrik Aas Andreassen, Matias Jentoft, Sondre Wold, Lilja {\O}vrelid
Abstract要約: データセットは、手動で作成した4,752組の質問応答ペアで構成されている。本稿では,複数の言語モデルとノルウェーの単言語モデルを比較し,その性能を比較した。データセットは無償で提供される。
参考スコア（独自算出の注目度）: 0.03281128493853064
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper we present NorQuAD: the first Norwegian question answering dataset for machine reading comprehension. The dataset consists of 4,752 manually created question-answer pairs. We here detail the data collection procedure and present statistics of the dataset. We also benchmark several multilingual and Norwegian monolingual language models on the dataset and compare them against human performance. The dataset will be made freely available.
Abstract（参考訳）: 本稿では,norquad: the first norwegian question answering dataset for machine reading comprehensionについて述べる。データセットは4,752人で作成されている。ここでは、データ収集手順とデータセットの統計について詳述する。また、複数の多言語およびノルウェーの単言語モデルについてベンチマークを行い、人間のパフォーマンスと比較した。データセットは無償で提供される。

関連論文リスト

NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark [10.018089141563104]
NorEvalは、24の高品質な人間生成データセットで構成されている。ノルウェー語の理解と生成を対象とするタスクカテゴリの幅広い範囲をカバーする。ノルウェー語の公式標準であるボクマール語とニノルスク語の両方に焦点を当てている。
論文参考訳（メタデータ） (2025-04-10T13:44:55Z)
A Collection of Question Answering Datasets for Norwegian [6.149436325733799]
このデータは、世界知識、常識推論、真理性、ノルウェーに関する知識など、幅広いスキルと知識ドメインをカバーしている。私たちのデータセットは10万以上の質問応答ペアで構成されており、ネイティブスピーカーによって作成されています。ほとんどのLMは、ニノルスクよりもボクマールの方が優れており、常識的推論にほとんど苦労しており、しばしば疑問に対する答えを生み出すことに不合理である。
論文参考訳（メタデータ） (2025-01-19T17:42:48Z)
Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles [8.083472758337559]
ノルウェーのニュース記事の高品質な人間によるサマリーのデータセットを紹介する。このデータセットは、生成言語モデルの抽象的な要約能力のベンチマークを目的としている。
論文参考訳（メタデータ） (2025-01-13T22:08:29Z)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文参考訳（メタデータ） (2024-02-09T18:51:49Z)
NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。 GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文参考訳（メタデータ） (2023-12-03T08:09:45Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language [1.3476084087665703]
HaVQAは、Hausa言語における視覚的質問応答タスクのための最初のマルチモーダルデータセットである。データセットは、6,022の英問合せペアを手動で翻訳することで作成され、Visual Genomeデータセットから1,555のユニークな画像に関連付けられている。
論文参考訳（メタデータ） (2023-05-28T10:55:31Z)
ScandEval: A Benchmark for Scandinavian Natural Language Processing [0.0]
本稿では,スカンジナビア語における4つのタスクに対して事前学習したモデルをベンチマークする,スカンジナビアのベンチマークプラットフォームであるScandEvalを紹介する。言語的受容性と質問応答という2つのタスクで使用されるデータセットは新しいものだ。我々は,Hugging Face Hubにアップロードされたモデルを,再現可能な結果でベンチマークすることができるPythonパッケージとコマンドラインインターフェースであるScandevalを開発し,リリースする。
論文参考訳（メタデータ） (2023-04-03T11:51:46Z)
The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.687459576800633]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文参考訳（メタデータ） (2023-03-30T06:42:22Z)
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。本研究では,NLS(Neural Label Search for Summarization)を提案する。我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文参考訳（メタデータ） (2022-04-28T14:02:16Z)
NorDiaChange: Diachronic Semantic Change Dataset for Norwegian [63.65426535861836]
NorDiaChangeはノルウェーにおける最初のダイアクロニックなセマンティックチェンジデータセットである。ノルウェーの約80の名詞が、時間とともに格付けされた意味変化で注釈付けされている。
論文参考訳（メタデータ） (2022-01-13T18:27:33Z)
MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文参考訳（メタデータ） (2021-07-30T20:01:03Z)
Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文参考訳（メタデータ） (2021-04-13T23:18:04Z)
TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。 TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文参考訳（メタデータ） (2020-05-17T17:26:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。