論文の概要: Improving Question Answering with Generation of NQ-like Questions
- arxiv url: http://arxiv.org/abs/2210.06599v1
- Date: Wed, 12 Oct 2022 21:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:31:55.571938
- Title: Improving Question Answering with Generation of NQ-like Questions
- Title(参考訳): NQライクな質問の生成による質問応答の改善
- Authors: Saptarashmi Bandyopadhyay, Shraman Pal, Hao Zou, Abhranil Chandra,
Jordan Boyd-Graber
- Abstract要約: QA ( Question Answering) システムは大量の注釈付きデータを必要とする。
本研究では,Quizbowl(QB)データセットの長いトリビア質問からNatural Questions(NQ)データセットにおいて,日々のコミュニケーションに似た短い質問を自動的に生成するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.276281998447079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question Answering (QA) systems require a large amount of annotated data
which is costly and time-consuming to gather. Converting datasets of existing
QA benchmarks are challenging due to different formats and complexities. To
address these issues, we propose an algorithm to automatically generate shorter
questions resembling day-to-day human communication in the Natural Questions
(NQ) dataset from longer trivia questions in Quizbowl (QB) dataset by
leveraging conversion in style among the datasets. This provides an automated
way to generate more data for our QA systems. To ensure quality as well as
quantity of data, we detect and remove ill-formed questions using a neural
classifier. We demonstrate that in a low resource setting, using the generated
data improves the QA performance over the baseline system on both NQ and QB
data. Our algorithm improves the scalability of training data while maintaining
quality of data for QA systems.
- Abstract(参考訳): 質問応答(qa)システムは、収集にコストと時間を要する大量の注釈付きデータを必要とする。
既存のQAベンチマークのデータセットの変換は、さまざまなフォーマットや複雑さのために難しい。
これらの問題に対処するために,Quizbowl(QB)データセットの長いトリビア質問からNQ(Natural Questions)データセットにおいて,日々のコミュニケーションに似た短い質問を自動的に生成するアルゴリズムを提案する。
これは、qaシステムのためにより多くのデータを生成する自動化方法を提供します。
品質とデータ量を確保するため,ニューラル分類器を用いて不正な質問の検出と削除を行う。
低リソース環境では,NQデータとQBデータの両方のベースラインシステム上でのQA性能が向上することを示す。
我々のアルゴリズムは、QAシステムのデータ品質を維持しながら、トレーニングデータのスケーラビリティを向上させる。
関連論文リスト
- Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - Summary-Oriented Question Generation for Informational Queries [23.72999724312676]
主文書のトピックに焦点をあてた自己説明的質問を,適切な長さのパスで答えられるようにすることを目的としている。
本モデルでは,NQデータセット(20.1BLEU-4)上でのSQ生成のSOTA性能を示す。
我々はさらに,本モデルをドメイン外のニュース記事に適用し,ゴールド質問の欠如によるQAシステムによる評価を行い,私たちのモデルがニュース記事に対してより良いSQを生成することを実証し,人間による評価によるさらなる確認を行う。
論文 参考訳(メタデータ) (2020-10-19T17:30:08Z) - Tell Me How to Ask Again: Question Data Augmentation with Controllable
Rewriting in Continuous Space [94.8320535537798]
機械読解(MRC)、質問生成、質問答え自然言語推論タスクのための制御可能な書き換えベースの質問データ拡張(CRQDA)。
質問データ拡張タスクを制約付き質問書き換え問題として扱い、コンテキスト関連、高品質、多様な質問データサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-04T03:13:46Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。