論文の概要: Using Weak Supervision and Data Augmentation in Question Answering
- arxiv url: http://arxiv.org/abs/2309.16175v1
- Date: Thu, 28 Sep 2023 05:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 16:01:18.282141
- Title: Using Weak Supervision and Data Augmentation in Question Answering
- Title(参考訳): 質問応答における弱視とデータ拡張の利用
- Authors: Chumki Basu, Himanshu Garg, Allen McIntosh, Sezai Sablak, John R.
Wullert II
- Abstract要約: 新型コロナウイルス(COVID-19)のパンデミックの始まりは、タイムリーで病気固有の質問に答えるために、バイオメディカル文献へのアクセスの必要性を強調した。
我々は、深層ニューラルネットワークQAモデルのトレーニングにおいて、弱い監視とデータ拡張が果たす役割について検討する。
システムの中核部におけるQAモデルのコンテキストにおける手法の評価を行い、COVID-19に関する質問に答える。
- 参考スコア(独自算出の注目度): 0.12499537119440242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The onset of the COVID-19 pandemic accentuated the need for access to
biomedical literature to answer timely and disease-specific questions. During
the early days of the pandemic, one of the biggest challenges we faced was the
lack of peer-reviewed biomedical articles on COVID-19 that could be used to
train machine learning models for question answering (QA). In this paper, we
explore the roles weak supervision and data augmentation play in training deep
neural network QA models. First, we investigate whether labels generated
automatically from the structured abstracts of scholarly papers using an
information retrieval algorithm, BM25, provide a weak supervision signal to
train an extractive QA model. We also curate new QA pairs using information
retrieval techniques, guided by the clinicaltrials.gov schema and the
structured abstracts of articles, in the absence of annotated data from
biomedical domain experts. Furthermore, we explore augmenting the training data
of a deep neural network model with linguistic features from external sources
such as lexical databases to account for variations in word morphology and
meaning. To better utilize our training data, we apply curriculum learning to
domain adaptation, fine-tuning our QA model in stages based on characteristics
of the QA pairs. We evaluate our methods in the context of QA models at the
core of a system to answer questions about COVID-19.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミックの始まりは、タイムリーで病気固有の質問に答えるために、バイオメディカル文献へのアクセスの必要性を強調した。
パンデミックの初期、私たちが直面した最大の課題の1つは、質問応答(qa)のための機械学習モデルのトレーニングに使用できる、covid-19に関する査読済みのバイオメディカル記事の欠如でした。
本稿では、深層ニューラルネットワークQAモデルのトレーニングにおいて、弱い監視とデータ拡張が果たす役割について検討する。
まず,情報検索アルゴリズムBM25を用いて学術論文の構造的抽象化から自動生成されるラベルが,抽出QAモデルを訓練するための弱い監視信号を提供するかどうかを検討する。
また, バイオメディカル領域の専門家による注釈付きデータがない場合に, 臨床検査用.govスキーマと記事の構造的抽象化によって案内される情報検索技術を用いて, 新たなQAペアをキュレートする。
さらに,単語形態や意味の変化を考慮した語彙データベースなどの外部ソースからの言語特徴を用いた深層ニューラルネットワークモデルの学習データの拡張について検討する。
学習データをよりよく活用するために、我々はカリキュラム学習をドメイン適応に適用し、QAペアの特性に基づいて段階的にQAモデルを微調整する。
システムの中核部におけるQAモデルのコンテキストにおける手法の評価を行い、COVID-19に関する質問に答える。
関連論文リスト
- ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - A Question Answering Based Pipeline for Comprehensive Chinese EHR
Information Extraction [3.411065529290054]
本稿では,質問応答モデルの伝達学習のための学習データを自動的に生成する手法を提案する。
我々のパイプラインは、抽出タイプによって生じる課題に対処するために、事前処理モジュールを組み込んでいます。
得られたQAモデルは,EHRにおける情報抽出のサブタスクに優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-17T02:55:35Z) - InfoLossQA: Characterizing and Recovering Information Loss in Text Simplification [60.10193972862099]
本研究は, 簡易化による情報損失を問合せ・問合せ形式で特徴づけ, 回復する枠組みを提案する。
QAペアは、読者がテキストの知識を深めるのに役立つように設計されている。
論文 参考訳(メタデータ) (2024-01-29T19:00:01Z) - Learning to Ask Like a Physician [24.15961995052862]
2,000以上の質問からなる新たな質問データセットDiSCQについて紹介する。
質問は、100以上のMIMIC-III放電サマリーの医療専門家によって生成される。
我々は、このデータセットを分析し、医療専門家が求めている情報のタイプを特徴付ける。
論文 参考訳(メタデータ) (2022-06-06T15:50:54Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - CliniQG4QA: Generating Diverse Questions for Domain Adaptation of
Clinical Question Answering [27.45623324582005]
臨床質問応答(英: Clinical Question answering, QA)は、臨床テキストに基づく医療専門家の質問に自動的に答えることを目的としている。
CliniQG4QAを提案する。これは質問生成(QG)を利用して、新しい臨床状況に基づいてQAペアを合成する。
QAモデルのトレーニングに不可欠な多様な質問を生成するために,Seq2seqベースの質問句予測(QPP)モジュールを導入する。
論文 参考訳(メタデータ) (2020-10-30T02:06:10Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Entity-Enriched Neural Models for Clinical Question Answering [14.863695981827307]
我々は,解答スパン検出の主課題とともに,補助課題として論理形式を予測することを学ぶ。
予測された論理形式は、答えの根拠としても機能する。
大規模なEmrQAデータセットでモデルをトレーニングし、マルチタスクのエンティティ強化モデルが、ベースラインのBERTモデルよりも5%よいパラフレーズの質問に一般化することを観察する。
論文 参考訳(メタデータ) (2020-05-13T21:04:29Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。