論文の概要: Clinical Reading Comprehension: A Thorough Analysis of the emrQA Dataset
- arxiv url: http://arxiv.org/abs/2005.00574v1
- Date: Fri, 1 May 2020 19:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:56:02.796562
- Title: Clinical Reading Comprehension: A Thorough Analysis of the emrQA Dataset
- Title(参考訳): 臨床読解の理解: EmrQA データセットの詳細な分析
- Authors: Xiang Yue, Bernal Jimenez Gutierrez and Huan Sun
- Abstract要約: 臨床ノートに基づく質問応答(QA)のための最初の大規模データセットである emrQA の詳細な分析を行う。
i) emrQA の回答は不完全であり,(ii) emrQA の質問はドメイン知識を使わずに答えられることが多い。
- 参考スコア(独自算出の注目度): 29.866478682797513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine reading comprehension has made great progress in recent years owing
to large-scale annotated datasets. In the clinical domain, however, creating
such datasets is quite difficult due to the domain expertise required for
annotation. Recently, Pampari et al. (EMNLP'18) tackled this issue by using
expert-annotated question templates and existing i2b2 annotations to create
emrQA, the first large-scale dataset for question answering (QA) based on
clinical notes. In this paper, we provide an in-depth analysis of this dataset
and the clinical reading comprehension (CliniRC) task. From our qualitative
analysis, we find that (i) emrQA answers are often incomplete, and (ii) emrQA
questions are often answerable without using domain knowledge. From our
quantitative experiments, surprising results include that (iii) using a small
sampled subset (5%-20%), we can obtain roughly equal performance compared to
the model trained on the entire dataset, (iv) this performance is close to
human expert's performance, and (v) BERT models do not beat the best performing
base model. Following our analysis of the emrQA, we further explore two desired
aspects of CliniRC systems: the ability to utilize clinical domain knowledge
and to generalize to unseen questions and contexts. We argue that both should
be considered when creating future datasets.
- Abstract(参考訳): 近年、大規模な注釈付きデータセットによって機械読解は大きな進歩を遂げている。
しかし、臨床領域では、アノテーションに必要なドメインの専門知識のため、このようなデータセットの作成は極めて困難である。
最近、Pampari et al. (EMNLP'18) は、専門家注釈付き質問テンプレートと既存のi2b2アノテーションを使用して、臨床ノートに基づいた質問応答のための最初の大規模データセットである emrQA を作成し、この問題に対処している。
本稿では,本データセットの詳細な分析と臨床読解(CliniRC)課題について述べる。
質的な分析から、私たちはそれを発見します。
(i) emrQA 答はしばしば不完全であり、
(ii)emrqaの質問はしばしばドメインの知識を使わずに答えられる。
私たちの定量的実験から 驚くべき結果は
(iii)小さなサンプルサブセット(5%-20%)を用いて、データセット全体のトレーニングモデルと比較してほぼ同等のパフォーマンスを得ることができる。
(iv)この演技は、人間の専門家の演奏に近いもので、
(v)BERTモデルは、最高のパフォーマンスベースモデルを超えない。
EmrQAの分析に続き、臨床領域知識を活用する能力と、目に見えない質問や文脈に一般化する能力という、CliniRCシステムの2つの望ましい側面について検討する。
我々は、どちらも将来のデータセットを作成する際に考慮すべきであると主張している。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering [25.577314828249897]
AVQA(Audio-Visual Question Answering)は、複雑なマルチモーダル推論タスクである。
現在のアプローチでは、データセットのバイアスを過度に学習する傾向があり、結果として堅牢性が低下する。
本稿では,公開データセットのテストスプリット内での質問の表現と,分割された質問に対する分散シフトの導入という,新しいデータセットであるtextitMUSIC-AVQA-Rを提案する。
論文 参考訳(メタデータ) (2024-04-18T09:16:02Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - Using Weak Supervision and Data Augmentation in Question Answering [0.12499537119440242]
新型コロナウイルス(COVID-19)のパンデミックの始まりは、タイムリーで病気固有の質問に答えるために、バイオメディカル文献へのアクセスの必要性を強調した。
我々は、深層ニューラルネットワークQAモデルのトレーニングにおいて、弱い監視とデータ拡張が果たす役割について検討する。
システムの中核部におけるQAモデルのコンテキストにおける手法の評価を行い、COVID-19に関する質問に答える。
論文 参考訳(メタデータ) (2023-09-28T05:16:51Z) - A quantitative study of NLP approaches to question difficulty estimation [0.30458514384586394]
この研究は、以前の研究で提案されたいくつかのアプローチを定量的に分析し、異なる教育領域のデータセットのパフォーマンスを比較した。
私たちは、Transformerベースのモデルが様々な教育領域で最高のパフォーマンスを示しており、DistilBERTはBERTとほぼ同等に機能していることに気付きました。
他のモデルでは、ハイブリットは単一のタイプの特徴に基づくものよりも優れており、言語的特徴に基づくものは理解された質問を読み取るのに優れ、周波数ベースの特徴(TF-IDF)と単語埋め込み(word2vec)はドメイン知識の評価において優れている。
論文 参考訳(メタデータ) (2023-05-17T14:26:00Z) - Huatuo-26M, a Large-scale Chinese Medical QA Dataset [29.130166934474044]
本稿では,2600万対のQAペアを用いた医療質問応答(QA)データセットをリリースする。
検索と生成の両方の観点から、データセットの既存のアプローチをベンチマークします。
このデータセットは、医学研究に貢献するだけでなく、患者と臨床医の両方にも役立ちます。
論文 参考訳(メタデータ) (2023-05-02T15:33:01Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文 参考訳(メタデータ) (2022-05-25T09:28:21Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。