論文の概要: Cheap and Good? Simple and Effective Data Augmentation for Low Resource
Machine Reading
- arxiv url: http://arxiv.org/abs/2106.04134v1
- Date: Tue, 8 Jun 2021 06:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:25:57.071499
- Title: Cheap and Good? Simple and Effective Data Augmentation for Low Resource
Machine Reading
- Title(参考訳): Cheap and Good?
低資源機械読取のための簡易かつ効果的なデータ拡張
- Authors: Hoang Van, Vikas Yadav, Mihai Surdeanu
- Abstract要約: 機械読取理解のための簡易かつ効果的なデータ拡張戦略を提案する。
提案手法はまず,拡張データ上でのMDCシステムの解答抽出成分を事前学習する。
我々は,本手法が文書検索と回答抽出性能を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 18.36174156574165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple and effective strategy for data augmentation for
low-resource machine reading comprehension (MRC). Our approach first pretrains
the answer extraction components of a MRC system on the augmented data that
contains approximate context of the correct answers, before training it on the
exact answer spans. The approximate context helps the QA method components in
narrowing the location of the answers. We demonstrate that our simple strategy
substantially improves both document retrieval and answer extraction
performance by providing larger context of the answers and additional training
data. In particular, our method significantly improves the performance of BERT
based retriever (15.12\%), and answer extractor (4.33\% F1) on TechQA, a
complex, low-resource MRC task. Further, our data augmentation strategy yields
significant improvements of up to 3.9\% exact match (EM) and 2.7\% F1 for
answer extraction on PolicyQA, another practical but moderate sized QA dataset
that also contains long answer spans.
- Abstract(参考訳): 本稿では,低リソース機械読解(MRC)のための簡易かつ効果的なデータ拡張戦略を提案する。
提案手法は,まず,正解のおよその文脈を含む拡張データに基づいて,MCCシステムの解抽出成分を事前学習し,その解の精度をトレーニングする。
近似コンテキストは、QAメソッドコンポーネントが回答の位置を狭めるのに役立つ。
提案手法は,回答のコンテキストを大きくし,学習データを追加することで,文書検索と回答抽出の性能を大幅に向上させることを実証する。
特に,提案手法は,複雑な低リソースMRCタスクであるTechQAにおけるBERTベースの検索器(15.12\%)と回答抽出器(4.33\% F1)の性能を著しく向上させる。
さらに,データ拡張戦略は,長期の回答スパンを含む実用的かつ中程度のqaデータセットであるpolicyqaにおける回答抽出において,最大3.9\%の正確な一致(em)と2.7\%のf1の大幅な改善をもたらす。
関連論文リスト
- W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
大規模言語モデル(LLM)は、内部(パラメトリック)知識にのみ依存して、事実的な回答を生成するのに苦労することが多い。
この制限に対処するため、Retrieval-Augmented Generation (RAG)システムでは、外部ソースから関連情報を検索することでLLMを強化している。
我々はLLMのランキング機能を活用してW-RAGを提案する。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - End-to-End Autoregressive Retrieval via Bootstrapping for Smart Reply
Systems [7.2949782290577945]
ブートストラップによって得られた(メッセージ,返信セット)ペアのデータセットから,スマートリプライタスクをエンドツーエンドに学習する新たなアプローチを検討する。
実験結果から、この手法は3つのデータセットにわたる最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-10-29T09:56:17Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models [5.748877272090607]
大規模言語モデル(LLM)は、人間がテキストと対話する方法を変えつつある。
本研究では,全文研究論文から資料データを抽出する簡便かつ効率的な手法を実証する。
このアプローチでは、抽出されたプロパティに関するコーディングや事前の知識は最小限から不要である。
結果のデータベースにおいて、高いリコールとほぼ完璧な精度を提供する。
論文 参考訳(メタデータ) (2023-02-09T19:56:37Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Knowledge-guided Open Attribute Value Extraction with Reinforcement
Learning [23.125544502927482]
オープン属性値抽出のための知識誘導強化学習(RL)フレームワークを提案する。
我々は,抽出した回答を逐次比較し,抽出精度を向上させるために,深層Qネットワークを訓練した。
その結果,本手法はベースラインを16.5~27.8%上回ることがわかった。
論文 参考訳(メタデータ) (2020-10-19T03:28:27Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。