論文の概要: Onco-Retriever: Generative Classifier for Retrieval of EHR Records in Oncology
- arxiv url: http://arxiv.org/abs/2404.06680v1
- Date: Wed, 10 Apr 2024 02:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 15:49:13.623500
- Title: Onco-Retriever: Generative Classifier for Retrieval of EHR Records in Oncology
- Title(参考訳): Onco-Retriever: 腫瘍学におけるERHレコード検索のための生成分類器
- Authors: Shashi Kant Gupta, Aditya Basu, Bradley Taylor, Anai Kothari, Hrituraj Singh,
- Abstract要約: 大規模言語モデルを用いて,データセットを手頃な価格で作成するための青写真を提案する。
提案手法は,30~50F-1点のレトリバーをプロプライエティよりも優れている。
実世界のEHRデータに対する広範囲な手動評価を行い、異なるモデルの遅延解析を行う。
- 参考スコア(独自算出の注目度): 4.159343412286402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving information from EHR systems is essential for answering specific questions about patient journeys and improving the delivery of clinical care. Despite this fact, most EHR systems still rely on keyword-based searches. With the advent of generative large language models (LLMs), retrieving information can lead to better search and summarization capabilities. Such retrievers can also feed Retrieval-augmented generation (RAG) pipelines to answer any query. However, the task of retrieving information from EHR real-world clinical data contained within EHR systems in order to solve several downstream use cases is challenging due to the difficulty in creating query-document support pairs. We provide a blueprint for creating such datasets in an affordable manner using large language models. Our method results in a retriever that is 30-50 F-1 points better than propriety counterparts such as Ada and Mistral for oncology data elements. We further compare our model, called Onco-Retriever, against fine-tuned PubMedBERT model as well. We conduct an extensive manual evaluation on real-world EHR data along with latency analysis of the different models and provide a path forward for healthcare organizations to build domain-specific retrievers.
- Abstract(参考訳): EHRシステムから情報を取得することは、患者旅行に関する特定の質問に答え、臨床ケアのデリバリを改善するために不可欠である。
この事実にもかかわらず、ほとんどのEHRシステムは依然としてキーワードベースの検索に依存している。
生成型大規模言語モデル(LLM)の出現により、情報を取得することにより、より優れた検索と要約能力が得られる。
このようなレトリバーは、任意のクエリに応答するために、Retrieval-augmented Generation (RAG)パイプラインをフィードすることもできる。
しかし、複数の下流ユースケースを解決するために、EHRシステムに含まれる実世界の臨床データから情報を抽出する作業は、クエリ文書支援ペアを作成するのが困難であるため、難しい。
大規模な言語モデルを用いて,このようなデータセットを手頃な方法で作成するための青写真を提供する。
その結果,Ada や Mistral などの腫瘍学データ要素に比べて30-50 F-1 点の検索精度が向上した。
さらに、Onco-Retrieverと呼ばれるモデルと微調整されたPubMedBERTモデルを比較します。
実世界のERHデータを広範囲に手動で評価し、異なるモデルの遅延解析を行い、医療機関がドメイン固有のレトリバーを構築するための道筋を提供する。
関連論文リスト
- Lessons Learned on Information Retrieval in Electronic Health Records: A Comparison of Embedding Models and Pooling Strategies [8.822087602255504]
大きな言語モデルを臨床領域に適用することは、医療記録を処理するという文脈重大な性質のために困難である。
本稿では, 組込みモデルとプール法の違いが臨床領域の情報検索に与える影響について検討する。
論文 参考訳(メタデータ) (2024-09-23T16:16:08Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - ACR: A Benchmark for Automatic Cohort Retrieval [1.3547712404175771]
現在のコホート検索手法は、手作業によるキュレーションと組み合わせた構造化データの自動クエリに依存している。
大規模言語モデル(LLM)と情報検索(IR)の最近の進歩は、これらのシステムに革命をもたらす有望な道を提供する。
本稿では,新しいタスクであるAutomatic Cohort Retrieval (ACR)を導入し,LLMと商用のドメイン固有のニューロシンボリックアプローチの性能を評価する。
論文 参考訳(メタデータ) (2024-06-20T23:04:06Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - BESTMVQA: A Benchmark Evaluation System for Medical Visual Question
Answering [8.547600133510551]
本稿では,BESTMVQAで表される医用視覚質問応答のベンチマーク評価SysTemを開発する。
本システムは,Med-VQAデータセットを自動構築する上で有用なツールを提供する。
簡単な構成で、ベンチマークデータセット上で選択したモデルを自動でトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-12-13T03:08:48Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - Rediscovery of CNN's Versatility for Text-based Encoding of Raw
Electronic Health Records [22.203204279166496]
我々は,大容量データを管理可能なサイズに縮小するだけでなく,多種多様な臨床業務を行う患者の中核情報を適切に保存する多目的エンコーダを探索する。
階層的に構造化された畳み込みニューラルネットワーク(CNN)は、多種多様なタスクにおける最先端モデルよりも優れていることが判明した。
論文 参考訳(メタデータ) (2023-03-15T00:37:18Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。