論文の概要: Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation
- arxiv url: http://arxiv.org/abs/2205.12604v1
- Date: Wed, 25 May 2022 09:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 04:51:24.338486
- Title: Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation
- Title(参考訳): 質問応答データセットの中間訓練による生成データ拡張の改善
- Authors: Dheeraj Mekala, Tu Vu, Jingbo Shang
- Abstract要約: 我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
- 参考スコア(独自算出の注目度): 32.83012699501051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manually annotating datasets requires domain experts to read through many
documents and carefully label them, which is often expensive. Recently,
pre-trained generative language models (GLMs) have demonstrated exceptional
abilities in generating text which motivates to leverage them for generative
data augmentation. We improve generative data augmentation by formulating the
data generation as context generation task and use question answering (QA)
datasets for intermediate training. Specifically, we view QA to be more as a
format than of a task and train GLMs as context generators for a given question
and its respective answer. Then, we cast downstream tasks into question
answering format and adapt the fine-tuned context generators to the target task
domain. Finally, we use the fine-tuned GLM to generate relevant contexts, which
is further used as synthetic training data for their corresponding tasks. We
perform extensive experiments, case studies, and ablation studies on multiple
sentiment and topic classification datasets and demonstrate substantial
improvements in performance in few-shot, zero-shot settings. Remarkably, on the
SST-2 dataset, intermediate training on SocialIQA dataset achieves an
improvement of 40% on Macro-F1 score. Through thorough analyses, we observe
that QA datasets that requires high-level reasoning abilities (e.g.,
abstractive and common-sense QA datasets) tend to give the best boost in
performance in both few-shot and zero-shot settings.
- Abstract(参考訳): 手動でアノテートするデータセットには、ドメインの専門家が多くのドキュメントを読み、慎重にラベル付けする必要がある。
近年、GLM(pre-trained generative language model)は、生成データ拡張にそれらを活用する動機となるテキストを生成する際、例外的な能力を示している。
我々は、データ生成をコンテキスト生成タスクとして定式化し、中間訓練にQAデータセットを使用することにより、生成データ拡張を改善する。
具体的には、QAをタスクよりも形式として捉え、与えられた質問とその回答のコンテキストジェネレータとしてGLMを訓練する。
次に、ダウンストリームタスクを質問応答形式にキャストし、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
最後に、細調整したGLMを用いて関連するコンテキストを生成し、それに対応するタスクの合成訓練データとしてさらに活用する。
我々は,複数の感情と話題分類データセットに関する広範囲な実験,ケーススタディ,アブレーション研究を行い,少数のゼロショット設定で性能が大幅に向上することを示す。
SST-2データセットでは、SocialIQAデータセットの中間トレーニングがマクロF1スコアで40%改善されている。
徹底的な分析を通して、高レベルの推論能力を必要とするQAデータセット(例えば、抽象的および常識的なQAデータセット)は、ショット数とゼロショットの両方で、最高のパフォーマンス向上をもたらす傾向があることを観察する。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Graph Guided Question Answer Generation for Procedural
Question-Answering [29.169773816553153]
本稿では,タスク固有質問応答(QA)モデルのための,完全かつ高品質なトレーニングデータを生成する方法を提案する。
キーテクノロジー・イネーブルは、手続き的テキストから質問応答自動生成のための新しいメカニズムである。
GPT3 や ChatGPT を超越しても,本データを用いて訓練した小型モデルは,目標QA タスクにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-01-24T17:01:42Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot
Question Answering [68.52980461474752]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - Multimodal Prompt Retrieval for Generative Visual Question Answering [9.973591610073006]
本稿では、検索したプロンプトとマルチモーダル機能を統合して、自由テキストで回答を生成するマルチモーダルプロンプト検索(MPR)によって強化された新しい生成モデルを提案する。
医療用VQAタスクの実験では、MPRはドメイン適応の設定において、最大30%の精度で検索不能なタスクを上回ります。
論文 参考訳(メタデータ) (2023-06-30T14:06:13Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。