論文の概要: WikiOmnia: generative QA corpus on the whole Russian Wikipedia
- arxiv url: http://arxiv.org/abs/2204.08009v1
- Date: Sun, 17 Apr 2022 12:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 02:54:19.591406
- Title: WikiOmnia: generative QA corpus on the whole Russian Wikipedia
- Title(参考訳): wikiomnia: generative qa corpus on the whole russian wikipedia (英語)
- Authors: Dina Pisarevskaya, Tatiana Shavrina
- Abstract要約: Wiki Omniaデータセットは、新しい公開QAペアとそれに対応するロシアのウィキペディア記事要約セクションである。
データセットには、ロシア語に関するウィキペディアの記事がすべて含まれている。
結果として得られたデータセットには、ロシアのウィキペディア全体の生データ(7,930,873 QA対、ruGPT-3 XL段落7,991,040 QA対、ruT5-large段落7,991,040 QA対)と厳格な自動検証データが含まれる。
- 参考スコア(独自算出の注目度): 0.2132096006921048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The General QA field has been developing the methodology referencing the
Stanford Question answering dataset (SQuAD) as the significant benchmark.
However, compiling factual questions is accompanied by time- and
labour-consuming annotation, limiting the training data's potential size. We
present the WikiOmnia dataset, a new publicly available set of QA-pairs and
corresponding Russian Wikipedia article summary sections, composed with a fully
automated generative pipeline. The dataset includes every available article
from Wikipedia for the Russian language. The WikiOmnia pipeline is available
open-source and is also tested for creating SQuAD-formatted QA on other
domains, like news texts, fiction, and social media. The resulting dataset
includes two parts: raw data on the whole Russian Wikipedia (7,930,873 QA pairs
with paragraphs for ruGPT-3 XL and 7,991,040 QA pairs with paragraphs for
ruT5-large) and cleaned data with strict automatic verification (over 160,000
QA pairs with paragraphs for ruGPT-3 XL and over 3,400,000 QA pairs with
paragraphs for ruT5-large).
- Abstract(参考訳): 一般QA分野は、スタンフォード質問応答データセット(SQuAD)を重要なベンチマークとして参照する方法論を開発している。
しかし、実際の質問のコンパイルには時間と労力のかかるアノテーションが伴い、トレーニングデータの潜在的なサイズが制限される。
WikiOmniaデータセットは、新しい公開QAペアとそれに対応するロシアのウィキペディア記事要約セクションであり、完全に自動化された生成パイプラインで構成されている。
データセットには、ロシア語に関するウィキペディアの記事がすべて含まれている。
WikiOmniaパイプラインはオープンソースであり、ニューステキスト、フィクション、ソーシャルメディアなど他のドメインでSQuAD形式のQAを作成するためにテストされている。
結果として得られたデータセットには、ロシアのウィキペディア全体の生データ(7,930,873 QA対、ruGPT-3 XL段落7,991,040 QA対、ruT5-large段落7,991,040 QA対)と、厳密な自動検証(ruGPT-3 XL段落16000 QA対、ruT5-large段落3,400,000 QA対)が含まれる。
関連論文リスト
- KazQAD: Kazakh Open-Domain Question Answering Dataset [2.8158674707210136]
KazQADは、カザフスタンのオープンドメイン質問応答データセットである。
これは、理解と完全なODQA設定を読むのに使うことができる。
6000件弱の独特な質問があり、短い回答が抽出されている。
論文 参考訳(メタデータ) (2024-04-06T03:40:36Z) - IfQA: A Dataset for Open-domain Question Answering under Counterfactual
Presuppositions [54.23087908182134]
本稿では,QA(FifQA)と呼ばれる,最初の大規模対実的オープンドメイン質問応答(QA)ベンチマークを紹介する。
IfQAデータセットには3,800以上の質問が含まれている。
IfQAベンチマークによって引き起こされるユニークな課題は、検索と対実的推論の両方に関して、オープンドメインのQA研究を促進することである。
論文 参考訳(メタデータ) (2023-05-23T12:43:19Z) - LIQUID: A Framework for List Question Answering Dataset Generation [17.86721740779611]
ラベルなしコーパスからリストQAデータセットを生成するためのフレームワークであるLIQUIDを提案する。
まず、ウィキペディアまたはPubMedからの節を要約に変換し、要約されたテキストから名前付きエンティティを候補回答として抽出する。
次に、抽出されたエンティティと元のパスを含む既成の質問生成器を用いて質問を生成する。
合成データを用いて,MultiSpanQAでは5.0点,Quorefでは1.9点,BioASQベンチマークでは2.8点の精度で,過去のベストリストQAモデルの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2023-02-03T12:42:45Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language [0.0]
このデータセットは、Swahili低リソース言語の生のストーリーテキストから注釈付けされている。
QAデータセットは、インターネット検索やダイアログシステムのようなタスクのための自然言語の機械理解にとって重要である。
この研究は、Kencorpusプロジェクトによって収集されたスワヒリのテキストからQAペアを定式化するためにアノテータを雇った。
論文 参考訳(メタデータ) (2022-05-04T23:53:23Z) - Relation-Guided Pre-Training for Open-Domain Question Answering [67.86958978322188]
複雑なオープンドメイン問題を解決するためのRGPT-QA(Relation-Guided Pre-Training)フレームワークを提案する。
RGPT-QAは, 自然質問, TriviaQA, WebQuestionsにおいて, Exact Matchの精度が2.2%, 2.4%, 6.3%向上したことを示す。
論文 参考訳(メタデータ) (2021-09-21T17:59:31Z) - QAConv: Question Answering on Informative Conversations [85.2923607672282]
ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。
合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
論文 参考訳(メタデータ) (2021-05-14T15:53:05Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - RuBQ: A Russian Dataset for Question Answering over Wikidata [3.394278383312621]
RuBQは、ロシア初の知識ベース質問応答(KBQA)データセットである。
高品質のデータセットは、複雑さの異なる1500のロシアの質問、彼らの英語機械翻訳、WikidataへのSPARQLクエリ、参照回答、ロシアのラベルを含む3つのエンティティのWikidataサンプルで構成されている。
論文 参考訳(メタデータ) (2020-05-21T14:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。