論文の概要: Evaluating Entity Retrieval in Electronic Health Records: a Semantic Gap Perspective
- arxiv url: http://arxiv.org/abs/2502.06252v1
- Date: Mon, 10 Feb 2025 08:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 18:57:51.030094
- Title: Evaluating Entity Retrieval in Electronic Health Records: a Semantic Gap Perspective
- Title(参考訳): 電子健康記録におけるエンティティ検索の評価 : セマンティックギャップの視点から
- Authors: Zhengyun Zhao, Hongyi Yuan, Jingjing Liu, Haichao Chen, Huaiyuan Ying, Songchi Zhou, Sheng Yu,
- Abstract要約: EHRにおけるエンティティ検索評価のための新しいベンチマークの開発とリリースを提案する。
我々はMIMIC-IIIデータセットからの放電サマリーを使用し、1,246のクエリを生成し、77,000以上の関連アノテーションを提供する。
意味的ギャップを初めて評価するために,関連性マッチングのための新しい分類システムを提案する。
- 参考スコア(独自算出の注目度): 11.786980537459405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity retrieval plays a crucial role in the utilization of Electronic Health Records (EHRs) and is applied across a wide range of clinical practices. However, a comprehensive evaluation of this task is lacking due to the absence of a public benchmark. In this paper, we propose the development and release of a novel benchmark for evaluating entity retrieval in EHRs, with a particular focus on the semantic gap issue. Using discharge summaries from the MIMIC-III dataset, we incorporate ICD codes and prescription labels associated with the notes as queries, and annotate relevance judgments using GPT-4. In total, we use 1,000 patient notes, generate 1,246 queries, and provide over 77,000 relevance annotations. To offer the first assessment of the semantic gap, we introduce a novel classification system for relevance matches. Leveraging GPT-4, we categorize each relevant pair into one of five categories: string, synonym, abbreviation, hyponym, and implication. Using the proposed benchmark, we evaluate several retrieval methods, including BM25, query expansion, and state-of-the-art dense retrievers. Our findings show that BM25 provides a strong baseline but struggles with semantic matches. Query expansion significantly improves performance, though it slightly reduces string match capabilities. Dense retrievers outperform traditional methods, particularly for semantic matches, and general-domain dense retrievers often surpass those trained specifically in the biomedical domain.
- Abstract(参考訳): エンティティ検索は電子健康記録(Electronic Health Records, EHR)の利用において重要な役割を担い、幅広い臨床実践に応用されている。
しかし、このタスクの包括的な評価は、公開ベンチマークがないために欠落している。
本稿では,EHRにおけるエンティティ検索評価のための新しいベンチマークの開発とリリースについて,特にセマンティックギャップの問題に焦点を当てて提案する。
筆者らはMIMIC-IIIデータセットからの放電サマリーを用いて,注記に関連付けられたICDコードと処方薬ラベルをクエリとして組み込んだ上で,GPT-4による関連判定を行った。
合計1000の患者ノートを使用し、1,246のクエリを生成し、77,000以上の関連アノテーションを提供します。
意味的ギャップを初めて評価するために,関連性マッチングのための新しい分類システムを提案する。
GPT-4を応用し、各関連するペアを、文字列、同義語、略語、偽名、含意の5つのカテゴリの1つに分類した。
提案したベンチマークを用いて,BM25,クエリ拡張,最先端の高密度検索など,いくつかの検索手法を評価する。
以上の結果から,BM25は強力なベースラインを提供するが,セマンティックマッチに苦慮していることが明らかとなった。
クエリ拡張によってパフォーマンスが大幅に向上するが、文字列マッチング能力はわずかに低下する。
デンスレトリバーは、特にセマンティックマッチにおいて伝統的な手法よりも優れており、一般的なドメイン密集レトリバーは、しばしばバイオメディカルドメインで特に訓練された方法より優れている。
関連論文リスト
- Bias Evaluation and Mitigation in Retrieval-Augmented Medical Question-Answering Systems [4.031787614742573]
本研究は、複数のQAベンチマークで医療用RAGパイプライン内の人口統計バイアスを系統的に評価する。
我々は、思考の推論の連鎖、対実的フィルタリング、適応的即興改善、多数決の集約など、特定バイアスに対処するために、いくつかのバイアス緩和戦略を実装し、比較する。
論文 参考訳(メタデータ) (2025-03-19T17:36:35Z) - MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。
本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - ACR: A Benchmark for Automatic Cohort Retrieval [1.3547712404175771]
現在のコホート検索手法は、手作業によるキュレーションと組み合わせた構造化データの自動クエリに依存している。
大規模言語モデル(LLM)と情報検索(IR)の最近の進歩は、これらのシステムに革命をもたらす有望な道を提供する。
本稿では,新しいタスクであるAutomatic Cohort Retrieval (ACR)を導入し,LLMと商用のドメイン固有のニューロシンボリックアプローチの性能を評価する。
論文 参考訳(メタデータ) (2024-06-20T23:04:06Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ユーティリティとトピック関連性は、情報検索において重要な手段である。
本稿では,リトリーバル拡張生成のサイクルの各ステップを促進させるために,反復的ユーティリティである JudgmEnt fraMework を提案する。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - Multi-stage Retrieve and Re-rank Model for Automatic Medical Coding Recommendation [22.323705343864336]
国際疾患分類(ICD)は、医学的な分類体系である。
ICDインデックスの主な目的は、ICDコードのサブセットを医療記録に割り当てることである。
既存のほとんどのアプローチは、非常に大きなICDコレクションから適切なラベルサブセットを選択することに苦しんだ。
論文 参考訳(メタデータ) (2024-05-29T13:54:30Z) - Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Augmented Embeddings for Custom Retrievals [13.773007276544913]
本稿では,タスク固有性,異種性,厳密な検索を実現するための埋め込み変換機構であるAdapted Dense Retrievalを紹介する。
Dense Retrievalは、事前訓練されたブラックボックス埋め込みの低ランク残差適応を学習することで機能する。
論文 参考訳(メタデータ) (2023-10-09T03:29:35Z) - Retrieval Augmentation for Commonsense Reasoning: A Unified Approach [64.63071051375289]
検索強化コモンセンス推論(RACo)の統一的枠組みを提案する。
提案するRACoは,他の知識強化手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-23T23:49:08Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文 参考訳(メタデータ) (2022-10-11T15:12:41Z) - Mirror Matching: Document Matching Approach in Seed-driven Document
Ranking for Medical Systematic Reviews [31.3220495275256]
文書ランキングとは、関係する文書が無関係のものよりも上位にある文書ランキングを提供することによって研究者を支援する手法である。
本稿では,医用要約テキスト間のマッチングスコアを共通記述パターンを組み込んで計算するミラーマッチング(Mirror Matching)という文書マッチング尺度を提案する。
論文 参考訳(メタデータ) (2021-12-28T22:27:52Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Impact of detecting clinical trial elements in exploration of COVID-19
literature [29.027162080682643]
本稿では, 標準検索エンジンによる検索結果と臨床関連概念を用いたフィルタリング結果と, その関連性について比較する。
関係性の概念選択は、元の検索したコレクションを、未判断の文書の割合を減少させる方法でフィルタリングする。
論文 参考訳(メタデータ) (2021-05-25T23:41:24Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - COMPOSE: Cross-Modal Pseudo-Siamese Network for Patient Trial Matching [70.08786840301435]
本稿では, CrOss-Modal PseudO-SiamEse Network (COMPOSE) を提案する。
実験の結果,患者基準マッチングでは98.0%,患者基準マッチングでは83.7%の精度でAUCに到達できることがわかった。
論文 参考訳(メタデータ) (2020-06-15T21:01:33Z) - Exemplar Auditing for Multi-Label Biomedical Text Classification [0.4873362301533824]
我々は、最近提案されたゼロショットシーケンスラベリング手法「畳み込み分解による教師付きラベリング」を一般化する。
この手法は"イントロスペクション(introspection)"と分類され、推論時間予測のきめ細かい特徴を最も近い隣人に関連付ける。
提案手法は,医療従事者に対して,モデルの予測を駆動する健全な特徴を理解する上で,競争力のある分類モデルと尋問メカニズムの両方を提供する。
論文 参考訳(メタデータ) (2020-04-07T02:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。