論文の概要: A Question Answering Based Pipeline for Comprehensive Chinese EHR
Information Extraction
- arxiv url: http://arxiv.org/abs/2402.11177v1
- Date: Sat, 17 Feb 2024 02:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:47:14.997602
- Title: A Question Answering Based Pipeline for Comprehensive Chinese EHR
Information Extraction
- Title(参考訳): 中国人事情報総合抽出のための質問応答に基づくパイプライン
- Authors: Huaiyuan Ying, Sheng Yu
- Abstract要約: 本稿では,質問応答モデルの伝達学習のための学習データを自動的に生成する手法を提案する。
我々のパイプラインは、抽出タイプによって生じる課題に対処するために、事前処理モジュールを組み込んでいます。
得られたQAモデルは,EHRにおける情報抽出のサブタスクに優れた性能を示す。
- 参考スコア(独自算出の注目度): 3.411065529290054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Electronic health records (EHRs) hold significant value for research and
applications. As a new way of information extraction, question answering (QA)
can extract more flexible information than conventional methods and is more
accessible to clinical researchers, but its progress is impeded by the scarcity
of annotated data. In this paper, we propose a novel approach that
automatically generates training data for transfer learning of QA models. Our
pipeline incorporates a preprocessing module to handle challenges posed by
extraction types that are not readily compatible with extractive QA frameworks,
including cases with discontinuous answers and many-to-one relationships. The
obtained QA model exhibits excellent performance on subtasks of information
extraction in EHRs, and it can effectively handle few-shot or zero-shot
settings involving yes-no questions. Case studies and ablation studies
demonstrate the necessity of each component in our design, and the resulting
model is deemed suitable for practical use.
- Abstract(参考訳): 電子健康記録(EHR)は、研究や応用に重要な価値を持っている。
新しい情報抽出法として、質問応答(QA)は従来の方法よりも柔軟な情報を抽出することができ、臨床研究者にもアクセスしやすいが、その進歩は注釈付きデータの不足によって妨げられている。
本稿では,QAモデルの伝達学習のための学習データを自動的に生成する手法を提案する。
我々のパイプラインは、不連続な回答や多対一の関係のあるケースを含む、抽出されたQAフレームワークと容易に互換性のないタイプの抽出によって生じる課題を処理するために、事前処理モジュールを組み込んでいる。
得られたQAモデルは,EHRにおける情報抽出のサブタスクに優れた性能を示し,イエス・ノー・質問を含むほとんどショットやゼロショットの設定を効果的に処理できる。
ケーススタディとアブレーション研究は, 設計における各成分の必要性を実証し, 実用性に適したモデルと考えられる。
関連論文リスト
- Question-Answering Based Summarization of Electronic Health Records
using Retrieval Augmented Generation [0.0]
本稿では,セマンティック検索,検索拡張生成,質問応答を組み合わせることで,欠点を軽減できる手法を提案する。
我々のアプローチは非常に効率的で、訓練は最小限から不要であり、LLMの「幻覚」問題に苦しむことはない。
要約には繰り返しの内容はなく、特定の質問に対する多様な回答があるため、多様性を保証する。
論文 参考訳(メタデータ) (2024-01-03T00:09:34Z) - Using Weak Supervision and Data Augmentation in Question Answering [0.12499537119440242]
新型コロナウイルス(COVID-19)のパンデミックの始まりは、タイムリーで病気固有の質問に答えるために、バイオメディカル文献へのアクセスの必要性を強調した。
我々は、深層ニューラルネットワークQAモデルのトレーニングにおいて、弱い監視とデータ拡張が果たす役割について検討する。
システムの中核部におけるQAモデルのコンテキストにおける手法の評価を行い、COVID-19に関する質問に答える。
論文 参考訳(メタデータ) (2023-09-28T05:16:51Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - QontSum: On Contrasting Salient Content for Query-focused Summarization [22.738731393540633]
クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。
本稿では,GARにおけるQFSの役割について述べる。
コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。
論文 参考訳(メタデータ) (2023-07-14T19:25:35Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - Determining Question-Answer Plausibility in Crowdsourced Datasets Using
Multi-Task Learning [10.742152224470317]
本稿では,品質分析とデータクリーニングのための新しいタスクを提案する。
ソーシャルメディア利用者からのマシンやユーザ生成の質問とクラウドソースによる回答が与えられた場合、質問と回答が有効かどうかを判断する。
クリーンで使いやすい質問応答データセットを生成するためのモデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-11-10T04:11:44Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。