論文の概要: Evaluating Entity Retrieval in Electronic Health Records: a Semantic Gap Perspective
- arxiv url: http://arxiv.org/abs/2502.06252v1
- Date: Mon, 10 Feb 2025 08:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:43.099427
- Title: Evaluating Entity Retrieval in Electronic Health Records: a Semantic Gap Perspective
- Title(参考訳): 電子健康記録におけるエンティティ検索の評価 : セマンティックギャップの視点から
- Authors: Zhengyun Zhao, Hongyi Yuan, Jingjing Liu, Haichao Chen, Huaiyuan Ying, Songchi Zhou, Sheng Yu,
- Abstract要約: EHRにおけるエンティティ検索評価のための新しいベンチマークの開発とリリースを提案する。
我々はMIMIC-IIIデータセットからの放電サマリーを使用し、1,246のクエリを生成し、77,000以上の関連アノテーションを提供する。
意味的ギャップを初めて評価するために,関連性マッチングのための新しい分類システムを提案する。
- 参考スコア(独自算出の注目度): 11.786980537459405
- License:
- Abstract: Entity retrieval plays a crucial role in the utilization of Electronic Health Records (EHRs) and is applied across a wide range of clinical practices. However, a comprehensive evaluation of this task is lacking due to the absence of a public benchmark. In this paper, we propose the development and release of a novel benchmark for evaluating entity retrieval in EHRs, with a particular focus on the semantic gap issue. Using discharge summaries from the MIMIC-III dataset, we incorporate ICD codes and prescription labels associated with the notes as queries, and annotate relevance judgments using GPT-4. In total, we use 1,000 patient notes, generate 1,246 queries, and provide over 77,000 relevance annotations. To offer the first assessment of the semantic gap, we introduce a novel classification system for relevance matches. Leveraging GPT-4, we categorize each relevant pair into one of five categories: string, synonym, abbreviation, hyponym, and implication. Using the proposed benchmark, we evaluate several retrieval methods, including BM25, query expansion, and state-of-the-art dense retrievers. Our findings show that BM25 provides a strong baseline but struggles with semantic matches. Query expansion significantly improves performance, though it slightly reduces string match capabilities. Dense retrievers outperform traditional methods, particularly for semantic matches, and general-domain dense retrievers often surpass those trained specifically in the biomedical domain.
- Abstract(参考訳): エンティティ検索は電子健康記録(Electronic Health Records, EHR)の利用において重要な役割を担い、幅広い臨床実践に応用されている。
しかし、このタスクの包括的な評価は、公開ベンチマークがないために欠落している。
本稿では,EHRにおけるエンティティ検索評価のための新しいベンチマークの開発とリリースについて,特にセマンティックギャップの問題に焦点を当てて提案する。
筆者らはMIMIC-IIIデータセットからの放電サマリーを用いて,注記に関連付けられたICDコードと処方薬ラベルをクエリとして組み込んだ上で,GPT-4による関連判定を行った。
合計1000の患者ノートを使用し、1,246のクエリを生成し、77,000以上の関連アノテーションを提供します。
意味的ギャップを初めて評価するために,関連性マッチングのための新しい分類システムを提案する。
GPT-4を応用し、各関連するペアを、文字列、同義語、略語、偽名、含意の5つのカテゴリの1つに分類した。
提案したベンチマークを用いて,BM25,クエリ拡張,最先端の高密度検索など,いくつかの検索手法を評価する。
以上の結果から,BM25は強力なベースラインを提供するが,セマンティックマッチに苦慮していることが明らかとなった。
クエリ拡張によってパフォーマンスが大幅に向上するが、文字列マッチング能力はわずかに低下する。
デンスレトリバーは、特にセマンティックマッチにおいて伝統的な手法よりも優れており、一般的なドメイン密集レトリバーは、しばしばバイオメディカルドメインで特に訓練された方法より優れている。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ユーティリティとトピック関連性は、情報検索において重要な手段である。
本稿では,リトリーバル拡張生成のサイクルの各ステップを促進させるために,反復的ユーティリティである JudgmEnt fraMework を提案する。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - Multi-stage Retrieve and Re-rank Model for Automatic Medical Coding Recommendation [22.323705343864336]
国際疾患分類(ICD)は、医学的な分類体系である。
ICDインデックスの主な目的は、ICDコードのサブセットを医療記録に割り当てることである。
既存のほとんどのアプローチは、非常に大きなICDコレクションから適切なラベルサブセットを選択することに苦しんだ。
論文 参考訳(メタデータ) (2024-05-29T13:54:30Z) - Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - Augmented Embeddings for Custom Retrievals [13.773007276544913]
本稿では,タスク固有性,異種性,厳密な検索を実現するための埋め込み変換機構であるAdapted Dense Retrievalを紹介する。
Dense Retrievalは、事前訓練されたブラックボックス埋め込みの低ランク残差適応を学習することで機能する。
論文 参考訳(メタデータ) (2023-10-09T03:29:35Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Mirror Matching: Document Matching Approach in Seed-driven Document
Ranking for Medical Systematic Reviews [31.3220495275256]
文書ランキングとは、関係する文書が無関係のものよりも上位にある文書ランキングを提供することによって研究者を支援する手法である。
本稿では,医用要約テキスト間のマッチングスコアを共通記述パターンを組み込んで計算するミラーマッチング(Mirror Matching)という文書マッチング尺度を提案する。
論文 参考訳(メタデータ) (2021-12-28T22:27:52Z) - Impact of detecting clinical trial elements in exploration of COVID-19
literature [29.027162080682643]
本稿では, 標準検索エンジンによる検索結果と臨床関連概念を用いたフィルタリング結果と, その関連性について比較する。
関係性の概念選択は、元の検索したコレクションを、未判断の文書の割合を減少させる方法でフィルタリングする。
論文 参考訳(メタデータ) (2021-05-25T23:41:24Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Exemplar Auditing for Multi-Label Biomedical Text Classification [0.4873362301533824]
我々は、最近提案されたゼロショットシーケンスラベリング手法「畳み込み分解による教師付きラベリング」を一般化する。
この手法は"イントロスペクション(introspection)"と分類され、推論時間予測のきめ細かい特徴を最も近い隣人に関連付ける。
提案手法は,医療従事者に対して,モデルの予測を駆動する健全な特徴を理解する上で,競争力のある分類モデルと尋問メカニズムの両方を提供する。
論文 参考訳(メタデータ) (2020-04-07T02:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。