論文の概要: Explicit Diversity Conditions for Effective Question Answer Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.17990v1
- Date: Wed, 26 Jun 2024 00:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:57:54.684192
- Title: Explicit Diversity Conditions for Effective Question Answer Generation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた効果的な質問応答生成のための明示的多様性条件
- Authors: Vikas Yadav, Hyuk Joon Kwon, Vijay Srinivasan, Hongxia Jin,
- Abstract要約: 質問応答生成(QAG)は,質問応答システムの精度を向上させる効果的なデータ拡張手法である。
我々は,空間的側面,質問タイプ,実体に着目し,QAGの明確な多様性条件を提示する。
特に、下流QAモデルをトレーニングする際、明確な多様性条件から生成されたQAペアは、QAGよりも平均4.1%正確な一致と4.5%のF1改善をもたらす。
- 参考スコア(独自算出の注目度): 37.641872859809844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Question Answer Generation (QAG) is an effective data augmentation technique to improve the accuracy of question answering systems, especially in low-resource domains. While recent pretrained and large language model-based QAG methods have made substantial progress, they face the critical issue of redundant QA pair generation, affecting downstream QA systems. Implicit diversity techniques such as sampling and diverse beam search are proven effective solutions but often yield smaller diversity. We present explicit diversity conditions for QAG, focusing on spatial aspects, question types, and entities, substantially increasing diversity in QA generation. Our work emphasizes the need of explicit diversity conditions for generating diverse question-answer synthetic data by showing significant improvements in downstream QA task over existing widely adopted implicit diversity techniques. In particular, generated QA pairs from explicit diversity conditions when used to train the downstream QA model results in an average 4.1% exact match and 4.5% F1 improvement over QAG from implicit sampling techniques on SQuADDU. Our work emphasizes the need for explicit diversity conditions even more in low-resource datasets (SubjQA), where average downstream QA performance improvements are around 12% EM.
- Abstract(参考訳): 質問応答生成(QAG)は、特に低リソース領域において、質問応答システムの精度を向上させる効果的なデータ拡張手法である。
最近の事前訓練型および大規模言語モデルに基づくQAG手法は大きな進歩を遂げているが、冗長なQAペア生成の重大な問題に直面し、下流のQAシステムに影響を及ぼす。
サンプリングや多様なビームサーチのような暗黙の多様性技術は有効な解法として証明されているが、しばしばより小さな多様性をもたらす。
我々は,QA生成における空間的側面,質問タイプ,実体に着目し,QAGの多様性を著しく増大させる,明確な多様性条件を提示する。
我々の研究は、既存の広く採用されている暗黙の多様性技術よりも、下流QAタスクの大幅な改善を示すことで、多様な質問応答合成データを生成するための明示的な多様性条件の必要性を強調した。
特に、下流QAモデルをトレーニングする際、明確な多様性条件から生成されたQAペアは、SQuADDUの暗黙のサンプリング技術から平均4.1%の正確な一致と4.5%のF1の改善をもたらす。
我々の研究は、低リソースデータセット(SubjQA)において、平均ダウンストリームQAパフォーマンスが約12%向上する、明確な多様性条件の必要性を強調しています。
関連論文リスト
- Large Language Models as In-context AI Generators for Quality-Diversity [8.585387103144825]
In-context QDは、QDアーカイブから品質の異なる例をコンテキストとして、少数ショットと多ショットのプロンプトを使って興味深いソリューションを生成することを目的としている。
In-context QD display promising results than both QD baselines and similar strategy developed for single-jective optimization。
論文 参考訳(メタデータ) (2024-04-24T10:35:36Z) - HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA [13.000411428297813]
コンテンツにカスケードメタデータと複数ルート検索機構を統合した,高度な多文書質問応答(MDQA)フレームワークであるHiQAを提案する。
また、MDQAの評価と研究を行うMasQAというベンチマークもリリースしました。
論文 参考訳(メタデータ) (2024-02-01T02:24:15Z) - Adapting Pre-trained Generative Models for Extractive Question Answering [4.993041970406846]
本稿では、事前学習された生成モデルのパワーを用いて、抽出されたQAタスクに対処する新しいアプローチを提案する。
本稿では,既存の最先端モデルと比較して,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-06T09:01:02Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization [13.436983663467938]
本稿では,ヒトフィードバックによる品質の多様性(QDHF)について紹介する。
実証的な研究によると、QDHFは自動多様性発見において最先端の手法を著しく上回っている。
オープンな生成タスクにおいて、QDHFは拡散モデルからテキストから画像への生成の多様性を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-18T16:46:16Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - Towards Diverse and Effective Question-Answer Pair Generation from
Children Storybooks [3.850557558248366]
本稿では,質問文と暗黙的/明示的回答を生成することにより,QA型の多様性を高めるフレームワークを提案する。
本フレームワークは,QFSベースの応答生成器,繰り返しQA生成器,関連性を考慮したランク付け器を備える。
論文 参考訳(メタデータ) (2023-06-11T06:55:59Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。