論文の概要: CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training
- arxiv url: http://arxiv.org/abs/2110.07731v1
- Date: Thu, 14 Oct 2021 21:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 12:37:20.947758
- Title: CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training
- Title(参考訳): CCQA: モデル事前学習のための新しいWebスケール質問回答データセット
- Authors: Patrick Huber, Armen Aghajanyan, Barlas O\u{g}uz, Dmytro Okhonko,
Wen-tau Yih, Sonal Gupta, Xilun Chen
- Abstract要約: 本稿では,Common Crawlプロジェクトに基づく質問応答データセットを提案する。
我々は、約1億3000万の多言語問合せ対を抽出し、約6000万の英語データポイントを抽出した。
これまでに見つからなかった自然QAペア数を用いて、質問応答タスクのための大規模ドメイン事前学習の可能性を示すために、人気のある言語モデルを事前訓練する。
- 参考スコア(独自算出の注目度): 21.07506671340319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of large-scale pre-trained language models, open-domain
question-answering (ODQA) has become an important research topic in NLP. Based
on the popular pre-training fine-tuning approach, we posit that an additional
in-domain pre-training stage using a large-scale, natural, and diverse
question-answering (QA) dataset can be beneficial for ODQA. Consequently, we
propose a novel QA dataset based on the Common Crawl project in this paper.
Using the readily available schema.org annotation, we extract around 130
million multilingual question-answer pairs, including about 60 million English
data-points. With this previously unseen number of natural QA pairs, we
pre-train popular language models to show the potential of large-scale
in-domain pre-training for the task of question-answering. In our experiments,
we find that pre-training question-answering models on our Common Crawl
Question Answering dataset (CCQA) achieves promising results in zero-shot, low
resource and fine-tuned settings across multiple tasks, models and benchmarks.
- Abstract(参考訳): 大規模事前学習言語モデルの普及に伴い、オープンドメイン質問回答(ODQA)はNLPにおいて重要な研究トピックとなっている。
一般的な事前学習アプローチに基づいて、大規模で自然で多様な質問応答(QA)データセットを使用したドメイン内事前学習がODQAにとって有益であると仮定する。
そこで本稿では,Common Crawlプロジェクトに基づく新しいQAデータセットを提案する。
利用可能なschema.orgアノテーションを用いて、約1億3000万の多言語問合せ対を抽出する。
これまでに見つからなかった自然QAペア数を用いて、質問応答タスクのための大規模ドメイン事前学習の可能性を示すために、人気のある言語モデルを事前訓練する。
実験の結果、CCQA(Common Crawl Question Answering dataset)の事前学習した質問回答モデルは、複数のタスク、モデル、ベンチマークをまたいだゼロショット、低リソース、微調整設定で有望な結果が得られることがわかった。
関連論文リスト
- QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Few-shot Multi-hop Question Answering over Knowledge Base [0.0]
本稿では,事前学習言語モデルと人工訓練サンプル構築戦略を備えた効率的なパイプライン手法を提案する。
CCKS 2019 Complex Question Answering via Knowledge Base Task上で、テストデータセットのF1スコアを62.55%達成しました。
論文 参考訳(メタデータ) (2021-12-14T00:56:54Z) - Few-Shot Question Answering by Pretraining Span Selection [58.31911597824848]
私たちは、数百のトレーニング例しか利用できない、より現実的な数ショット設定を探索します。
標準スパン選択モデルの性能が低下していることを示し,現在の事前学習目標が質問応答から遠ざかっていることを浮き彫りにした。
本研究は,事前学習方式とモデルアーキテクチャの注意深い設計が,数ショット設定における性能に劇的な影響を及ぼすことを示唆している。
論文 参考訳(メタデータ) (2021-01-02T11:58:44Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering
Models [25.398047573530985]
ReQA(Retrieval Question answering)は、オープンコーパスから質問に対する文レベルの回答を検索するタスクである。
本稿では、公開されているQAデータセットから抽出された8つの検索QAタスクからなる新しいマルチドメインReQA評価スイートであるMultiReQAを提案する。
論文 参考訳(メタデータ) (2020-05-05T21:30:16Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。