論文の概要: CDE-Mapper: Using Retrieval-Augmented Language Models for Linking Clinical Data Elements to Controlled Vocabularies
- arxiv url: http://arxiv.org/abs/2505.04365v1
- Date: Wed, 07 May 2025 12:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.069116
- Title: CDE-Mapper: Using Retrieval-Augmented Language Models for Linking Clinical Data Elements to Controlled Vocabularies
- Title(参考訳): CDE-Mapper: 検索言語モデルを用いて臨床データ要素を制御語彙にリンクする
- Authors: Komal Gilani, Marlo Verket, Christof Peters, Michel Dumontier, Hans-Peter Brunner-La Rocca, Visara Urovi,
- Abstract要約: 臨床データ要素の標準化(CDEs)は、様々な医療システムにまたがる一貫した総合的な患者情報を確保することを目的としている。
既存の方法は、様々な表現と複雑な構造のCDEを標準化する際にしばしば失敗し、臨床研究におけるデータ統合と相互運用性を妨げる。
CDE-Mapperは、CDEと制御語彙のリンクを自動化するために、大規模言語モデルと組み合わせた検索・拡張生成アプローチを活用する革新的なフレームワークである。
- 参考スコア(独自算出の注目度): 0.59374762912328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standardization of clinical data elements (CDEs) aims to ensure consistent and comprehensive patient information across various healthcare systems. Existing methods often falter when standardizing CDEs of varying representation and complex structure, impeding data integration and interoperability in clinical research. We introduce CDE-Mapper, an innovative framework that leverages Retrieval-Augmented Generation approach combined with Large Language Models to automate the linking of CDEs to controlled vocabularies. Our modular approach features query decomposition to manage varying levels of CDEs complexity, integrates expert-defined rules within prompt engineering, and employs in-context learning alongside multiple retriever components to resolve terminological ambiguities. In addition, we propose a knowledge reservoir validated by a human-in-loop approach, achieving accurate concept linking for future applications while minimizing computational costs. For four diverse datasets, CDE-Mapper achieved an average of 7.2\% higher accuracy improvement compared to baseline methods. This work highlights the potential of advanced language models in improving data harmonization and significantly advancing capabilities in clinical decision support systems and research.
- Abstract(参考訳): 臨床データ要素の標準化(CDEs)は、様々な医療システムにまたがる一貫した総合的な患者情報を確保することを目的としている。
既存の方法は、様々な表現と複雑な構造のCDEを標準化する際にしばしば失敗し、臨床研究におけるデータ統合と相互運用性を妨げる。
CDE-Mapperは、CDEと制御語彙のリンクを自動化するために、大規模言語モデルと組み合わせた検索・拡張生成アプローチを活用する革新的なフレームワークである。
我々のモジュラーアプローチは,CDEの複雑さのさまざまなレベルを管理するためのクエリ分解を特徴とし,プロンプトエンジニアリングに専門家定義ルールを統合するとともに,複数のレトリバーコンポーネントとともにコンテキスト内学習を採用して,用語的曖昧さを解消する。
また,提案手法は,計算コストを最小化しつつ,将来の応用のための正確な概念リンクを実現することを目的として,人間とループのアプローチによって検証された知識貯水池を提案する。
4つの多様なデータセットに対して、CDE-Mapperはベースライン法と比較して平均7.2\%の精度向上を達成した。
本研究は, 臨床意思決定支援システムと研究におけるデータ調和の改善と, 機能向上における先進言語モデルの可能性を明らかにするものである。
関連論文リスト
- Satisfactory Medical Consultation based on Terminology-Enhanced Information Retrieval and Emotional In-Context Learning [5.658305428268366]
本稿では,TEIR と EICL の2つの主要なモジュールからなる,医療相談のための新しい枠組みを提案する。
TEIRは、公開データベースにおける制限されたドメイン知識の制限を克服し、帰納的知識とキー検索用語の利用による暗黙の推論を保証する。
EICLモジュールは、意味と属性情報をラベルのないコーパスから記憶することで、属性関連性の高い文を生成するのに役立つ。
論文 参考訳(メタデータ) (2025-03-22T23:01:07Z) - ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文 参考訳(メタデータ) (2024-04-09T15:04:27Z) - CoRelation: Boosting Automatic ICD Coding Through Contextualized Code
Relation Learning [56.782963838838036]
我々は,ICDコード表現の学習を促進するために,文脈的かつ柔軟なフレームワークである新しい手法を提案する。
提案手法では,可能なすべてのコード関係をモデル化する際の臨床ノートのコンテキストを考慮した,依存型学習パラダイムを採用している。
論文 参考訳(メタデータ) (2024-02-24T03:25:28Z) - REALM: RAG-Driven Enhancement of Multimodal Electronic Health Records
Analysis via Large Language Models [19.62552013839689]
既存のモデルは、しばしば臨床上の課題に医学的文脈を欠いているため、外部知識の組み入れが促される。
本稿では、マルチモーダルEHR表現を強化するためのRAG(Retrieval-Augmented Generation)駆動フレームワークREALMを提案する。
MIMIC-III 死亡率と可読化タスクに関する実験は,ベースラインよりもREALM フレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-10T18:27:28Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - P-Transformer: A Prompt-based Multimodal Transformer Architecture For Medical Tabular Data [2.4688646371447898]
医用表データに特化して設計されたマルチモーダルアンダーライントランスフォーマアーキテクチャであるPTransformerを提案する。
このフレームワークは、構造化データと非構造化データの両方から、多彩なモダリティを調和した言語意味空間に効率的にエンコードする。
PTransformerは、RMSE/MAEで10.9%/11.0%、RMSE/MAEで0.5%/2.2%、BACC/AUROCで1.6%/0.8%の改善を実証した。
論文 参考訳(メタデータ) (2023-03-30T14:25:44Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。