論文の概要: Towards Efficient Methods in Medical Question Answering using Knowledge Graph Embeddings
- arxiv url: http://arxiv.org/abs/2401.07977v2
- Date: Fri, 27 Sep 2024 03:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 05:28:28.149761
- Title: Towards Efficient Methods in Medical Question Answering using Knowledge Graph Embeddings
- Title(参考訳): 知識グラフ埋め込みを用いた医用質問応答の効率化に向けて
- Authors: Saptarshi Sengupta, Connor Heaton, Suhan Cui, Soumalya Sarkar, Prasenjit Mitra,
- Abstract要約: 自然言語処理(NLP)では、機械読解(MRC)は与えられた文脈に基づいて質問に答えるタスクである。
BioBERT、SciBERT、さらにはChatGPTといった現代の言語モデルは、膨大な量のドメイン内医療コーパスで訓練されている。
本稿では、そのようなドメイン固有の事前学習に頼ることなく、モデルにドメイン知識を注入するためのリソース効率のよいアプローチを提案する。
- 参考スコア(独自算出の注目度): 3.944219308229571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Natural Language Processing (NLP), Machine Reading Comprehension (MRC) is the task of answering a question based on a given context. To handle questions in the medical domain, modern language models such as BioBERT, SciBERT and even ChatGPT are trained on vast amounts of in-domain medical corpora. However, in-domain pre-training is expensive in terms of time and resources. In this paper, we propose a resource-efficient approach for injecting domain knowledge into a model without relying on such domain-specific pre-training. Knowledge graphs are powerful resources for accessing medical information. Building on existing work, we introduce a method using Multi-Layer Perceptrons (MLPs) for aligning and integrating embeddings extracted from medical knowledge graphs with the embedding spaces of pre-trained language models (LMs). The aligned embeddings are fused with open-domain LMs BERT and RoBERTa that are fine-tuned for two MRC tasks, span detection (COVID-QA) and multiple-choice questions (PubMedQA). We compare our method to prior techniques that rely on a vocabulary overlap for embedding alignment and show how our method circumvents this requirement to deliver better performance. On both datasets, our method allows BERT/RoBERTa to either perform on par (occasionally exceeding) with stronger domain-specific models or show improvements in general over prior techniques. With the proposed approach, we signal an alternative method to in-domain pre-training to achieve domain proficiency.
- Abstract(参考訳): 自然言語処理(NLP)では、機械読解理解(MRC)は与えられた文脈に基づいて質問に答えるタスクである。
医療領域における質問に対処するために、BioBERT、SciBERT、ChatGPTといった現代言語モデルは、膨大なドメイン内医療コーパスで訓練されている。
しかし、ドメイン内の事前トレーニングは時間とリソースの面で高価である。
本稿では、そのようなドメイン固有の事前学習に頼ることなく、モデルにドメイン知識を注入するリソース効率の高い手法を提案する。
知識グラフは医療情報にアクセスするための強力なリソースである。
既存の研究に基づいて,医療知識グラフから抽出した埋め込みと,事前学習言語モデル(LM)の埋め込み空間の整合と統合を行うための,MLP(Multi-Layer Perceptrons)を用いた手法を提案する。
配置された埋め込みは、オープンドメインのLMTとRoBERTaで融合され、2つのMRCタスク、スパン検出(COVID-QA)とマルチチョイス質問(PubMedQA)のために微調整される。
組込みアライメントにおいて語彙オーバーラップに依存する先行手法と比較し,この要件を回避してよりよいパフォーマンスを実現する方法を示す。
どちらのデータセットでも、BERT/RoBERTaはより強力なドメイン固有モデルと同等(時折超える)に動作するか、あるいは従来の手法よりも一般的に改善されていることを示す。
提案手法では,ドメインの習熟度を高めるために,ドメイン内事前学習の代替手法を指示する。
関連論文リスト
- To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering [18.226545754007972]
本稿では,医学における質問応答のための第1世代読解フレームワークであるMedGENIEについて述べる。
MedQA-USMLE, MedMCQA, MMLUについて, 最大24GB VRAMを仮定して, 実用的視点を取り入れた広範囲な実験を行った。
以上の結果から, 得られたパスは検索したパスよりも効率が高く, 精度が高いことが判明した。
論文 参考訳(メタデータ) (2024-03-04T10:41:52Z) - DG-TTA: Out-of-domain medical image segmentation through Domain Generalization and Test-Time Adaptation [43.842694540544194]
本稿では、ドメインの一般化とテスト時間適応を組み合わせることで、未確認対象領域で事前学習したモデルを再利用するための非常に効果的なアプローチを提案する。
本手法は,事前訓練した全身CTモデルと組み合わせることで,MR画像を高精度に分割できることを実証する。
論文 参考訳(メタデータ) (2023-12-11T10:26:21Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - A Self-enhancement Approach for Domain-specific Chatbot Training via
Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。
本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。
我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文 参考訳(メタデータ) (2023-11-17T16:09:10Z) - Quality > Quantity: Synthetic Corpora from Foundation Models for
Closed-Domain Extractive Question Answering [35.38140071573828]
閉領域内での抽出的質問応答について検討し,対象とする事前学習の概念を紹介する。
提案フレームワークはGalacticaを用いて,特定の書体スタイルやトピックに合わせて合成された「ターゲット」コーパスを生成する。
論文 参考訳(メタデータ) (2023-10-25T20:48:16Z) - Open-Ended Medical Visual Question Answering Through Prefix Tuning of
Language Models [42.360431316298204]
我々は、VQAのオープン化に重点を置いており、近年の言語モデルの発展によって、VQAを生成タスクと見なされている。
医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。
我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-03-10T15:17:22Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。