論文の概要: A Lightweight Method to Generate Unanswerable Questions in English
- arxiv url: http://arxiv.org/abs/2310.19403v1
- Date: Mon, 30 Oct 2023 10:14:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 21:00:34.699046
- Title: A Lightweight Method to Generate Unanswerable Questions in English
- Title(参考訳): 英語における難解な質問生成のための軽量手法
- Authors: Vagrant Gautam, Miaoran Zhang, Dietrich Klakow
- Abstract要約: 本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
- 参考スコア(独自算出の注目度): 18.323248259867356
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: If a question cannot be answered with the available information, robust
systems for question answering (QA) should know _not_ to answer. One way to
build QA models that do this is with additional training data comprised of
unanswerable questions, created either by employing annotators or through
automated methods for unanswerable question generation. To show that the model
complexity of existing automated approaches is not justified, we examine a
simpler data augmentation method for unanswerable question generation in
English: performing antonym and entity swaps on answerable questions. Compared
to the prior state-of-the-art, data generated with our training-free and
lightweight strategy results in better models (+1.6 F1 points on SQuAD 2.0 data
with BERT-large), and has higher human-judged relatedness and readability. We
quantify the raw benefits of our approach compared to no augmentation across
multiple encoder models, using different amounts of generated data, and also on
TydiQA-MinSpan data (+9.3 F1 points with BERT-large). Our results establish
swaps as a simple but strong baseline for future work.
- Abstract(参考訳): 利用可能な情報で質問に答えられない場合、質問応答のための堅牢なシステム(QA)は _not_ を知って答えるべきである。
これを行うQAモデルを構築する方法の1つは、アノテータを採用するか、あるいは解決不可能な質問生成のための自動メソッドを通じて作成される、解決不可能な質問からなる追加のトレーニングデータである。
既存の自動アプローチのモデルの複雑さが正当化されていないことを示すため、英語の難解な質問生成のためのより単純なデータ拡張手法について検討する。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略によって生成されたデータは、より優れたモデル(BERT-largeでSQuAD 2.0データに+1.6 F1ポイント)となり、より人力的な関連性と可読性が高い。
我々は,複数のエンコーダモデルにまたがる拡張を行わず,異なる量の生成データとTydiQA-MinSpanデータ(BERT-largeで+9.3 F1ポイント)を用いて,このアプローチの生の利点を定量化する。
我々の結果は、スワップを将来の作業の単純だが強力なベースラインとして確立する。
関連論文リスト
- QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - QUADRo: Dataset and Models for QUestion-Answer Database Retrieval [97.84448420852854]
質問/回答(q/a)ペアのデータベース(DB)が与えられた場合、同じ質問に対してDBをスキャンすることで、対象の質問に答えることができる。
我々は6.3Mのq/aペアからなる大規模DBを構築し、公開質問を用いて、ニューラルIRとq/aペアリランカに基づく新しいシステムを設計する。
我々は、Bing検索エンジン上に構築されたQAシステムという、Webベースの手法とDBベースのアプローチが競合することを示す。
論文 参考訳(メタデータ) (2023-03-30T00:42:07Z) - Improving Question Answering with Generation of NQ-like Questions [12.276281998447079]
QA ( Question Answering) システムは大量の注釈付きデータを必要とする。
本研究では,Quizbowl(QB)データセットの長いトリビア質問からNatural Questions(NQ)データセットにおいて,日々のコミュニケーションに似た短い質問を自動的に生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-12T21:36:20Z) - When in Doubt, Ask: Generating Answerable and Unanswerable Questions,
Unsupervised [0.0]
質問回答(QA)は、人と機械間の堅牢なコミュニケーションを可能にするための鍵である。
現代のQAで使用される言語モデルは、いくつかの重要なタスクにおいて人間のパフォーマンスを上回っている。
本稿では,この問題を克服する手段として,人工データを用いた人為的データセットの強化について検討する。
論文 参考訳(メタデータ) (2020-10-04T15:56:44Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。