論文の概要: CUICurate: A GraphRAG-based Framework for Automated Clinical Concept Curation for NLP applications
- arxiv url: http://arxiv.org/abs/2602.17949v1
- Date: Fri, 20 Feb 2026 03:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.210104
- Title: CUICurate: A GraphRAG-based Framework for Automated Clinical Concept Curation for NLP applications
- Title(参考訳): CUICurate: NLPアプリケーションのための臨床概念自動キュレーションのためのグラフRAGベースのフレームワーク
- Authors: Victoria Blake, Mathew Miller, Jamie Novak, Sze-yuan Ooi, Blanca Gallego,
- Abstract要約: CUICurate は、UMLS の概念集合の自動キュレーションのためのグラフベースの検索拡張生成(GraphRAG)フレームワークである。
対象とする各概念に対して、候補CUIが検索され、次に大きな言語モデル(LLM)フィルタリングと分類ステップが続いた。
このフレームワークは、手動でキュレートされたベンチマークとゴールドスタンダードのコンセプトセットに対して、5つの語彙的に異質な臨床概念で評価された。
- 参考スコア(独自算出の注目度): 0.16311150636417257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Clinical named entity recognition tools commonly map free text to Unified Medical Language System (UMLS) Concept Unique Identifiers (CUIs). For many downstream tasks, however, the clinically meaningful unit is not a single CUI but a concept set comprising related synonyms, subtypes, and supertypes. Constructing such concept sets is labour-intensive, inconsistently performed, and poorly supported by existing tools, particularly for NLP pipelines that operate directly on UMLS CUIs. Methods We present CUICurate, a Graph-based retrieval-augmented generation (GraphRAG) framework for automated UMLS concept set curation. A UMLS knowledge graph (KG) was constructed and embedded for semantic retrieval. For each target concept, candidate CUIs were retrieved from the KG, followed by large language model (LLM) filtering and classification steps comparing two LLMs (GPT-5 and GPT-5-mini). The framework was evaluated on five lexically heterogeneous clinical concepts against a manually curated benchmark and gold-standard concept sets. Results Across all concepts, CUICurate produced substantially larger and more complete concept sets than the manual benchmarks whilst matching human precision. Comparisons between the two LLMs found that GPT-5-mini achieved higher recall during filtering, while GPT-5 produced classifications that more closely aligned with clinician judgements. Outputs were stable across repeated runs and computationally inexpensive. Conclusions CUICurate offers a scalable and reproducible approach to support UMLS concept set curation that substantially reduces manual effort. By integrating graph-based retrieval with LLM reasoning, the framework produces focused candidate concept sets that can be adapted to clinical NLP pipelines for different phenotyping and analytic requirements.
- Abstract(参考訳): 背景: 臨床名称のエンティティ認識ツールは、通常、フリーテキストをUMLS(Unified Medical Language System)概念統一識別子(CUIs)にマッピングする。
しかし、多くの下流タスクでは、臨床的に意味のある単位は単一のCUIではなく、関連する同義語、サブタイプ、スーパータイプからなる概念セットである。
このような概念セットの構築は労働集約的で、一貫性がなく、既存のツール、特にUMLS CUI上で直接動作するNLPパイプラインではサポートされていない。
方法 CUICurate は、UMLS の概念集合の自動キュレーションのためのグラフベースの検索拡張生成(GraphRAG)フレームワークである。
UMLS知識グラフ(KG)が構築され,セマンティック検索に組み込まれている。
各ターゲット概念に対して、候補CUIはKGから検索され、続いて大きな言語モデル(LLM)フィルタリングと2つのLLM(GPT-5とGPT-5-mini)を比較した。
このフレームワークは、手動でキュレートされたベンチマークとゴールドスタンダードのコンセプトセットに対して、5つの語彙的に異質な臨床概念で評価された。
結果 CUICurate はすべての概念に対して,手作業によるベンチマークよりもはるかに大きく,より完全な概念セットを生成した。
2つのLCMの比較では、GPT-5-miniはフィルター中に高いリコールを達成し、GPT-5は臨床の判断とより密接に一致した分類を生み出した。
出力は繰り返し実行することで安定し、計算コストも安い。
結論 CUICurateは、UMLSの概念セットのキュレーションをサポートするスケーラブルで再現可能なアプローチを提供し、手作業を大幅に削減します。
グラフベースの検索とLSM推論を統合することにより、異なる表現型と分析要求のために臨床用NLPパイプラインに適応可能な、焦点を絞った候補概念セットを生成する。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis [9.002305517166635]
Prior-Guided Concept Predictor (PCP) は、言語モデルに依存することなく、概念回答の予測を可能にする弱い教師付きフレームワークである。
PCPはゼロショットベースラインに比べてコンセプトレベルのF1スコアを33%以上改善している。
論文 参考訳(メタデータ) (2025-11-03T00:43:04Z) - Automated SNOMED CT Concept Annotation in Clinical Text Using Bi-GRU Neural Networks [0.31457219084519]
本研究では,双方向GRUモデルを用いたSNOMEDCT概念認識のためのニューラルネットワークラベリング手法を提案する。
ドメイン適応型SpaCyおよびSciBERTベースのトークン化を用いてテキストを前処理し,テキストを文脈,構文,形態に富んだ重なり合う19個のチャンクに分割する。
Bi-GRUモデルは、IOBタグを指定してコンセプトスパンを特定し、検証セット上で90%のF1スコアで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-04T16:08:49Z) - Federated Learning for ICD Classification with Lightweight Models and Pretrained Embeddings [0.9668407688201359]
本研究では,多ラベルICD符号分類におけるフェデレート学習の有効性と性能について検討した。
本稿では, シンプルな多層パーセプトロン(MLP)分類器と凍結したテキスト埋め込みを組み合わせたスケーラブルなパイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-03T18:58:36Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Document-level Clinical Entity and Relation Extraction via Knowledge Base-Guided Generation [0.869967783513041]
統一医療言語システム(UMLS)の知識ベースを利用して医療概念を正確に識別する。
本フレームワークは、テキストに関連するUMLS概念を選択し、エンティティを抽出する際の言語モデルガイドのプロンプトと組み合わせる。
論文 参考訳(メタデータ) (2024-07-13T22:45:46Z) - Multi-perspective Improvement of Knowledge Graph Completion with Large
Language Models [95.31941227776711]
我々は,文脈知識の不足を補うMPIKGCを提案し,大規模言語モデル(LLM)をクエリすることでKGCを改善する。
我々は4つの記述に基づくKGCモデルと4つのデータセットに基づくフレームワークの広範囲な評価を行い、リンク予測とトリプルト分類のタスクについて検討した。
論文 参考訳(メタデータ) (2024-03-04T12:16:15Z) - An Empirical Study of UMLS Concept Extraction from Clinical Notes using
Boolean Combination Ensembles [14.730336509680093]
2010 i2b2 VA チャレンジセット (31,161 アノテーション),Multi-source Integrated Platform for Answering Clinical Questions (MiPACQ) コーパス (17,457 アノテーション,UMLS のユニークな識別子を含む)。
UMLSの概念マッチングでは,MIPACQコーパスのブールアンサンブルが個々のシステムよりも高い性能を示す傾向を示した。
近似グリッド探索を用いることで、精度の高いリコールを最適化し、最適なアンサンブルセットを選択するためのトレードオフセットを提供することができる。
論文 参考訳(メタデータ) (2021-08-04T19:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。