論文の概要: Cheap and Good? Simple and Effective Data Augmentation for Low Resource
Machine Reading
- arxiv url: http://arxiv.org/abs/2106.04134v1
- Date: Tue, 8 Jun 2021 06:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:25:57.071499
- Title: Cheap and Good? Simple and Effective Data Augmentation for Low Resource
Machine Reading
- Title(参考訳): Cheap and Good?
低資源機械読取のための簡易かつ効果的なデータ拡張
- Authors: Hoang Van, Vikas Yadav, Mihai Surdeanu
- Abstract要約: 機械読取理解のための簡易かつ効果的なデータ拡張戦略を提案する。
提案手法はまず,拡張データ上でのMDCシステムの解答抽出成分を事前学習する。
我々は,本手法が文書検索と回答抽出性能を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 18.36174156574165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple and effective strategy for data augmentation for
low-resource machine reading comprehension (MRC). Our approach first pretrains
the answer extraction components of a MRC system on the augmented data that
contains approximate context of the correct answers, before training it on the
exact answer spans. The approximate context helps the QA method components in
narrowing the location of the answers. We demonstrate that our simple strategy
substantially improves both document retrieval and answer extraction
performance by providing larger context of the answers and additional training
data. In particular, our method significantly improves the performance of BERT
based retriever (15.12\%), and answer extractor (4.33\% F1) on TechQA, a
complex, low-resource MRC task. Further, our data augmentation strategy yields
significant improvements of up to 3.9\% exact match (EM) and 2.7\% F1 for
answer extraction on PolicyQA, another practical but moderate sized QA dataset
that also contains long answer spans.
- Abstract(参考訳): 本稿では,低リソース機械読解(MRC)のための簡易かつ効果的なデータ拡張戦略を提案する。
提案手法は,まず,正解のおよその文脈を含む拡張データに基づいて,MCCシステムの解抽出成分を事前学習し,その解の精度をトレーニングする。
近似コンテキストは、QAメソッドコンポーネントが回答の位置を狭めるのに役立つ。
提案手法は,回答のコンテキストを大きくし,学習データを追加することで,文書検索と回答抽出の性能を大幅に向上させることを実証する。
特に,提案手法は,複雑な低リソースMRCタスクであるTechQAにおけるBERTベースの検索器(15.12\%)と回答抽出器(4.33\% F1)の性能を著しく向上させる。
さらに,データ拡張戦略は,長期の回答スパンを含む実用的かつ中程度のqaデータセットであるpolicyqaにおける回答抽出において,最大3.9\%の正確な一致(em)と2.7\%のf1の大幅な改善をもたらす。
関連論文リスト
- End-to-End Autoregressive Retrieval via Bootstrapping for Smart Reply
Systems [7.2949782290577945]
ブートストラップによって得られた(メッセージ,返信セット)ペアのデータセットから,スマートリプライタスクをエンドツーエンドに学習する新たなアプローチを検討する。
実験結果から、この手法は3つのデータセットにわたる最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-10-29T09:56:17Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot
Question Answering [68.52980461474752]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Training Data is More Valuable than You Think: A Simple and Effective
Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。
意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。
実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-03-16T17:37:27Z) - Efficient Reinforced Feature Selection via Early Stopping Traverse
Strategy [36.890295071860166]
単エージェントモンテカルロ型強化特徴選択法(MCRFS)を提案する。
また,早期停止(ES)戦略と報酬レベルインタラクティブ(RI)戦略の2つの効率改善戦略を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:51:13Z) - RETRONLU: Retrieval Augmented Task-Oriented Semantic Parsing [11.157958012672202]
マルチドメインタスク指向のセマンティックパーシングの問題に対して,検索に基づくモデリングのアイデアを適用している。
我々のアプローチであるRetroNLUは、シーケンス・ツー・シーケンス・モデルアーキテクチャを検索コンポーネントで拡張する。
近隣の検索コンポーネントの品質、モデルの感度を分析し、発話の複雑さの異なる意味解析の性能を分解する。
論文 参考訳(メタデータ) (2021-09-21T19:30:30Z) - Knowledge-guided Open Attribute Value Extraction with Reinforcement
Learning [23.125544502927482]
オープン属性値抽出のための知識誘導強化学習(RL)フレームワークを提案する。
我々は,抽出した回答を逐次比較し,抽出精度を向上させるために,深層Qネットワークを訓練した。
その結果,本手法はベースラインを16.5~27.8%上回ることがわかった。
論文 参考訳(メタデータ) (2020-10-19T03:28:27Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。