論文の概要: QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation
- arxiv url: http://arxiv.org/abs/2309.10326v2
- Date: Wed, 20 Sep 2023 01:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 10:27:21.177174
- Title: QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation
- Title(参考訳): QASnowball: 高品質な質問回答データ生成のための反復型ブートストラッピングフレームワーク
- Authors: Kunlun Zhu, Shihao Liang, Xu Han, Zhi Zheng, Guoyang Zeng, Zhiyuan
Liu, Maosong Sun
- Abstract要約: QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
- 参考スコア(独自算出の注目度): 67.27999343730224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the success of question answering (QA),
especially its potential to be a foundation paradigm for tackling diverse NLP
tasks. However, obtaining sufficient data to build an effective and stable QA
system still remains an open problem. For this problem, we introduce an
iterative bootstrapping framework for QA data augmentation (named QASnowball),
which can iteratively generate large-scale high-quality QA data based on a seed
set of supervised examples. Specifically, QASnowball consists of three modules,
an answer extractor to extract core phrases in unlabeled documents as candidate
answers, a question generator to generate questions based on documents and
candidate answers, and a QA data filter to filter out high-quality QA data.
Moreover, QASnowball can be self-enhanced by reseeding the seed set to
fine-tune itself in different iterations, leading to continual improvements in
the generation quality. We conduct experiments in the high-resource English
scenario and the medium-resource Chinese scenario, and the experimental results
show that the data generated by QASnowball can facilitate QA models: (1)
training models on the generated data achieves comparable results to using
supervised data, and (2) pre-training on the generated data and fine-tuning on
supervised data can achieve better performance. Our code and generated data
will be released to advance further work.
- Abstract(参考訳): 近年,質問応答(QA)の成功,特に多様なNLPタスクに対処するための基礎パラダイムとしての可能性が注目されている。
しかし、有効で安定したQAシステムを構築するのに十分なデータを取得することは、依然として未解決の問題である。
そこで本研究では,QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を提案する。
具体的には、QASnowballは、3つのモジュール、未ラベル文書の中核句を候補回答として抽出する回答抽出器、文書と候補回答に基づいて質問を生成する質問生成器、高品質QAデータをフィルタリングするQAデータフィルタからなる。
さらに、qasnowballは、シードセットを異なるイテレーションで微調整し、世代品質を継続的に改善することで、自己強調することができる。
我々は、高リソースの英語シナリオと中ソースの中国語シナリオで実験を行い、その実験結果から、QAモデルを促進することが示されている。(1) 生成されたデータに対するトレーニングモデルは、教師付きデータと同等の結果が得られること、(2) 生成されたデータに対する事前トレーニングと教師付きデータの微調整により、より良いパフォーマンスが得られること。
私たちのコードと生成されたデータは、さらなる作業を進めるためにリリースされます。
関連論文リスト
- A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Improving Question Answering with Generation of NQ-like Questions [12.276281998447079]
QA ( Question Answering) システムは大量の注釈付きデータを必要とする。
本研究では,Quizbowl(QB)データセットの長いトリビア質問からNatural Questions(NQ)データセットにおいて,日々のコミュニケーションに似た短い質問を自動的に生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-12T21:36:20Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。