論文の概要: Onco-Retriever: Generative Classifier for Retrieval of EHR Records in Oncology
- arxiv url: http://arxiv.org/abs/2404.06680v1
- Date: Wed, 10 Apr 2024 02:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 15:49:13.623500
- Title: Onco-Retriever: Generative Classifier for Retrieval of EHR Records in Oncology
- Title(参考訳): Onco-Retriever: 腫瘍学におけるERHレコード検索のための生成分類器
- Authors: Shashi Kant Gupta, Aditya Basu, Bradley Taylor, Anai Kothari, Hrituraj Singh,
- Abstract要約: 大規模言語モデルを用いて,データセットを手頃な価格で作成するための青写真を提案する。
提案手法は,30~50F-1点のレトリバーをプロプライエティよりも優れている。
実世界のEHRデータに対する広範囲な手動評価を行い、異なるモデルの遅延解析を行う。
- 参考スコア(独自算出の注目度): 4.159343412286402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving information from EHR systems is essential for answering specific questions about patient journeys and improving the delivery of clinical care. Despite this fact, most EHR systems still rely on keyword-based searches. With the advent of generative large language models (LLMs), retrieving information can lead to better search and summarization capabilities. Such retrievers can also feed Retrieval-augmented generation (RAG) pipelines to answer any query. However, the task of retrieving information from EHR real-world clinical data contained within EHR systems in order to solve several downstream use cases is challenging due to the difficulty in creating query-document support pairs. We provide a blueprint for creating such datasets in an affordable manner using large language models. Our method results in a retriever that is 30-50 F-1 points better than propriety counterparts such as Ada and Mistral for oncology data elements. We further compare our model, called Onco-Retriever, against fine-tuned PubMedBERT model as well. We conduct an extensive manual evaluation on real-world EHR data along with latency analysis of the different models and provide a path forward for healthcare organizations to build domain-specific retrievers.
- Abstract(参考訳): EHRシステムから情報を取得することは、患者旅行に関する特定の質問に答え、臨床ケアのデリバリを改善するために不可欠である。
この事実にもかかわらず、ほとんどのEHRシステムは依然としてキーワードベースの検索に依存している。
生成型大規模言語モデル(LLM)の出現により、情報を取得することにより、より優れた検索と要約能力が得られる。
このようなレトリバーは、任意のクエリに応答するために、Retrieval-augmented Generation (RAG)パイプラインをフィードすることもできる。
しかし、複数の下流ユースケースを解決するために、EHRシステムに含まれる実世界の臨床データから情報を抽出する作業は、クエリ文書支援ペアを作成するのが困難であるため、難しい。
大規模な言語モデルを用いて,このようなデータセットを手頃な方法で作成するための青写真を提供する。
その結果,Ada や Mistral などの腫瘍学データ要素に比べて30-50 F-1 点の検索精度が向上した。
さらに、Onco-Retrieverと呼ばれるモデルと微調整されたPubMedBERTモデルを比較します。
実世界のERHデータを広範囲に手動で評価し、異なるモデルの遅延解析を行い、医療機関がドメイン固有のレトリバーを構築するための道筋を提供する。
関連論文リスト
- Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - A Question Answering Based Pipeline for Comprehensive Chinese EHR
Information Extraction [3.411065529290054]
本稿では,質問応答モデルの伝達学習のための学習データを自動的に生成する手法を提案する。
我々のパイプラインは、抽出タイプによって生じる課題に対処するために、事前処理モジュールを組み込んでいます。
得られたQAモデルは,EHRにおける情報抽出のサブタスクに優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-17T02:55:35Z) - BESTMVQA: A Benchmark Evaluation System for Medical Visual Question
Answering [8.547600133510551]
本稿では,BESTMVQAで表される医用視覚質問応答のベンチマーク評価SysTemを開発する。
本システムは,Med-VQAデータセットを自動構築する上で有用なツールを提供する。
簡単な構成で、ベンチマークデータセット上で選択したモデルを自動でトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-12-13T03:08:48Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - Rediscovery of CNN's Versatility for Text-based Encoding of Raw
Electronic Health Records [22.203204279166496]
我々は,大容量データを管理可能なサイズに縮小するだけでなく,多種多様な臨床業務を行う患者の中核情報を適切に保存する多目的エンコーダを探索する。
階層的に構造化された畳み込みニューラルネットワーク(CNN)は、多種多様なタスクにおける最先端モデルよりも優れていることが判明した。
論文 参考訳(メタデータ) (2023-03-15T00:37:18Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Categorical EHR Imputation with Generative Adversarial Nets [11.171712535005357]
本稿では,データ計算のためのGANに関する従来の研究を基にした,シンプルで効果的な手法を提案する。
従来のデータ計算手法に比べて予測精度が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2021-08-03T18:50:26Z) - PyHealth: A Python Library for Health Predictive Models [53.848478115284195]
PyHealthは、医療データ上で様々な予測モデルを開発するためのオープンソースのPythonツールボックスである。
データ前処理モジュールにより、複雑なヘルスケアデータセットを機械学習フレンドリーなフォーマットに変換できます。
予測モデリングモジュールは、確立されたアンサンブルツリーとディープニューラルネットワークベースのアプローチを含む30以上の機械学習モデルを提供します。
論文 参考訳(メタデータ) (2021-01-11T22:02:08Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。