論文の概要: Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs
- arxiv url: http://arxiv.org/abs/2005.13837v5
- Date: Mon, 15 Jun 2020 02:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 04:35:55.009320
- Title: Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs
- Title(参考訳): 情報最大化階層型条件付きVAEを用いた多元QAペアの生成
- Authors: Dong Bok Lee, Seanie Lee, Woo Tae Jeong, Donghwan Kim, Sung Ju Hwang
- Abstract要約: 非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
- 参考スコア(独自算出の注目度): 62.71505254770827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most crucial challenges in question answering (QA) is the scarcity
of labeled data, since it is costly to obtain question-answer (QA) pairs for a
target text domain with human annotation. An alternative approach to tackle the
problem is to use automatically generated QA pairs from either the problem
context or from large amount of unstructured texts (e.g. Wikipedia). In this
work, we propose a hierarchical conditional variational autoencoder (HCVAE) for
generating QA pairs given unstructured texts as contexts, while maximizing the
mutual information between generated QA pairs to ensure their consistency. We
validate our Information Maximizing Hierarchical Conditional Variational
AutoEncoder (Info-HCVAE) on several benchmark datasets by evaluating the
performance of the QA model (BERT-base) using only the generated QA pairs
(QA-based evaluation) or by using both the generated and human-labeled pairs
(semi-supervised learning) for training, against state-of-the-art baseline
models. The results show that our model obtains impressive performance gains
over all baselines on both tasks, using only a fraction of data for training.
- Abstract(参考訳): 質問応答(QA)の最も重要な課題の1つは、人間のアノテーションで対象のテキストドメインに対して質問応答(QA)ペアを得るのに費用がかかるため、ラベル付きデータの不足である。
この問題に取り組む別のアプローチは、問題コンテキストまたは大量の非構造化テキスト(例えばウィキペディア)から自動生成されたQAペアを使用することである。
本研究では,非構造化テキストをコンテキストとして生成し,生成したQAペア間の相互情報を最大化し,一貫性を確保するための階層型条件付き変分オートエンコーダ(HCVAE)を提案する。
我々は,生成されたqaペア(qaベース評価)のみを用いてqaモデル(bert-base)の性能を評価するか,あるいは生成およびヒューマンラベルペア(semi-supervised learning)をトレーニングに使用することにより,いくつかのベンチマークデータセット上で階層的条件変動オートエンコーダ(info-hcvae)を最大化する情報を検証した。
その結果,両タスクのベースラインに対して,トレーニングにほんのわずかなデータしか使用せず,印象的なパフォーマンス向上が得られた。
関連論文リスト
- Graph Guided Question Answer Generation for Procedural
Question-Answering [29.169773816553153]
本稿では,タスク固有質問応答(QA)モデルのための,完全かつ高品質なトレーニングデータを生成する方法を提案する。
キーテクノロジー・イネーブルは、手続き的テキストから質問応答自動生成のための新しいメカニズムである。
GPT3 や ChatGPT を超越しても,本データを用いて訓練した小型モデルは,目標QA タスクにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-01-24T17:01:42Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - How to Build Robust FAQ Chatbot with Controllable Question Generator? [5.680871239968297]
本稿では, セマンティックグラフを用いて, 高い品質, 多様性, 制御可能なサンプルを生成する手法を提案する。
流動的でセマンティックに生成されたQAペアは、我々の通過検索モデルをうまく騙すことができる。
生成されたデータセットは、新しいターゲット領域へのQAモデルの一般化性を向上させる。
論文 参考訳(メタデータ) (2021-11-18T12:54:07Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。