論文の概要: A Pipeline for Generating, Annotating and Employing Synthetic Data for
Real World Question Answering
- arxiv url: http://arxiv.org/abs/2211.16971v1
- Date: Wed, 30 Nov 2022 13:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:35:35.330840
- Title: A Pipeline for Generating, Annotating and Employing Synthetic Data for
Real World Question Answering
- Title(参考訳): 実世界質問応答のための合成データの生成,注釈,活用のためのパイプライン
- Authors: Matthew Maufe, James Ravenscroft, Rob Procter, Maria Liakata
- Abstract要約: 質問回答(QA: Question Answering)は、文書から情報を取り出すのに役立つ研究分野である。
本稿では,ドメイン一般モデルを用いて,合成ドメイン固有データセットを容易に生成できることを実証する。
- 参考スコア(独自算出の注目度): 21.897002626924348
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Question Answering (QA) is a growing area of research, often used to
facilitate the extraction of information from within documents.
State-of-the-art QA models are usually pre-trained on domain-general corpora
like Wikipedia and thus tend to struggle on out-of-domain documents without
fine-tuning. We demonstrate that synthetic domain-specific datasets can be
generated easily using domain-general models, while still providing significant
improvements to QA performance. We present two new tools for this task: A
flexible pipeline for validating the synthetic QA data and training downstream
models on it, and an online interface to facilitate human annotation of this
generated data. Using this interface, crowdworkers labelled 1117 synthetic QA
pairs, which we then used to fine-tune downstream models and improve
domain-specific QA performance by 8.75 F1.
- Abstract(参考訳): 質問応答(英語: question answering、qa)は、文書から情報を抽出するのにしばしば用いられる研究分野である。
最先端のQAモデルは、通常ウィキペディアのようなドメイン一般コーパスで事前訓練されているため、微調整なしでドメイン外文書に苦労する傾向がある。
合成ドメイン固有データセットは、ドメイン一般モデルを用いて容易に生成できるが、QA性能は大幅に改善されている。
このタスクには、合成QAデータの検証と下流モデルのトレーニングのための柔軟なパイプラインと、生成されたデータの人間のアノテーションを容易にするオンラインインターフェースの2つの新しいツールが提供される。
このインタフェースを用いて、クラウドワーカーは1117組の合成QAペアをラベル付けし、ダウンストリームモデルを微調整し、ドメイン固有のQA性能を8.75F1で改善した。
関連論文リスト
- Graph Guided Question Answer Generation for Procedural
Question-Answering [29.169773816553153]
本稿では,タスク固有質問応答(QA)モデルのための,完全かつ高品質なトレーニングデータを生成する方法を提案する。
キーテクノロジー・イネーブルは、手続き的テキストから質問応答自動生成のための新しいメカニズムである。
GPT3 や ChatGPT を超越しても,本データを用いて訓練した小型モデルは,目標QA タスクにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-01-24T17:01:42Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Long-Tailed Question Answering in an Open World [46.67715607552547]
我々は、Long-Tailed QA (OLTQA) を、長い尾の分散データから学習するものとして定義する。
OLTQAモデルを提案し,頭,尾,目立たないタスク間の知識共有を促進する。
大規模なOLTQAデータセットでは、我々のモデルは一貫して最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-11T04:28:58Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - Tokenization Consistency Matters for Generative Models on Extractive NLP
Tasks [54.306234256074255]
生成モデルの訓練において一般的に無視されるトークン化の不整合の問題を特定する。
この問題は、入力と出力が無矛盾にトークン化されると、これらのタスクの抽出特性を損なう。
一貫性のあるトークン化では、ドメイン内のデータセットとドメイン外のデータセットの両方で、モデルのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-12-19T23:33:21Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Contrastive Domain Adaptation for Question Answering using Limited Text
Corpora [20.116147632481983]
本稿では,QAに対するコントラッシブ・ドメイン適応という,ドメイン適応のための新しいフレームワークを提案する。
特に、CAQAは、質問生成とドメイン不変学習の技法を組み合わせて、限られたテキストコーパスでドメイン外質問に答える。
論文 参考訳(メタデータ) (2021-08-31T14:05:55Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。