論文の概要: CDEMapper: Enhancing NIH Common Data Element Normalization using Large Language Models
- arxiv url: http://arxiv.org/abs/2412.00491v1
- Date: Sat, 30 Nov 2024 14:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:40:22.808860
- Title: CDEMapper: Enhancing NIH Common Data Element Normalization using Large Language Models
- Title(参考訳): CDEMapper:大規模言語モデルを用いたNIH共通データ要素正規化の強化
- Authors: Yan Wang, Jimin Huang, Huan He, Vincent Zhang, Yujia Zhou, Xubing Hao, Pritham Ram, Lingfei Qian, Qianqian Xie, Ruey-Ling Weng, Fongci Lin, Yan Hu, Licong Cui, Xiaoqian Jiang, Hua Xu, Na Hong,
- Abstract要約: 共通データ要素(CDE)は、データ収集と研究間の共有を標準化し、データの相互運用性を高め、研究を改善する。
CDEの実装は、幅広い範囲とさまざまなデータ要素による課題を提示します。
我々は,ローカルデータ要素をNIH CDEにマッピングするのを支援するために,大規模言語モデル(LLM)を利用したマッピングツールCDEMapperを提案する。
- 参考スコア(独自算出の注目度): 26.074925988601713
- License:
- Abstract: Common Data Elements (CDEs) standardize data collection and sharing across studies, enhancing data interoperability and improving research reproducibility. However, implementing CDEs presents challenges due to the broad range and variety of data elements. This study aims to develop an effective and efficient mapping tool to bridge the gap between local data elements and National Institutes of Health (NIH) CDEs. We propose CDEMapper, a large language model (LLM) powered mapping tool designed to assist in mapping local data elements to NIH CDEs. CDEMapper has three core modules: (1) CDE indexing and embeddings. NIH CDEs were indexed and embedded to support semantic search; (2) CDE recommendations. The tool combines Elasticsearch (BM25 similarity methods) with state of the art GPT services to recommend candidate CDEs and their permissible values; and (3) Human review. Users review and select the NIH CDEs and values that best match their data elements and value sets. We evaluate the tool recommendation accuracy against manually annotated mapping results. CDEMapper offers a publicly available, LLM-powered, and intuitive user interface that consolidates essential and advanced mapping services into a streamlined pipeline. It provides a step by step, quality assured mapping workflow designed with a user-centered approach. The evaluation results demonstrated that augmenting BM25 with GPT embeddings and a ranker consistently enhances CDEMapper mapping accuracy in three different mapping settings across four evaluation datasets. This work opens up the potential of using LLMs to assist with CDE recommendation and human curation when aligning local data elements with NIH CDEs. Additionally, this effort enhances clinical research data interoperability and helps researchers better understand the gaps between local data elements and NIH CDEs.
- Abstract(参考訳): 共通データ要素(CDE)は、データ収集と研究間の共有を標準化し、データの相互運用性を高め、研究再現性を向上させる。
しかし、CDEの実装は、幅広いデータ要素と多様なデータ要素による課題を提示する。
本研究では,地域データ要素とNIH(National Institutes of Health) CDEのギャップを埋める,効率的かつ効率的なマッピングツールを開発することを目的とする。
我々は,ローカルデータ要素をNIH CDEにマッピングするのを支援するために,大規模言語モデル(LLM)を利用したマッピングツールCDEMapperを提案する。
CDEMapperには、(1)CDEインデックスと埋め込みの3つのコアモジュールがある。
NIH CDEをインデックス化し,セマンティック検索をサポートする。
このツールはElasticsearch(BM25の類似性メソッド)と最先端のGPTサービスを組み合わせて、候補のCDEとその許容値を推奨する。
ユーザは、データ要素とバリューセットに最もマッチするNIH CDEと値をレビューし、選択する。
手動の注釈付きマッピング結果に対して,ツールレコメンデーションの精度を評価する。
CDEMapperは、必要不可欠な高度なマッピングサービスを合理化されたパイプラインに統合する、一般公開されたLLMベースの、直感的なユーザインターフェースを提供する。
ステップバイステップで、ユーザ中心のアプローチで設計された品質保証マッピングワークフローを提供する。
評価結果は,GPT埋め込みとランク付けによるBM25の拡張により,4つの評価データセット間の3つの異なるマッピング設定におけるCDEMapperマッピング精度が一貫して向上することを示した。
この研究は、ローカルデータ要素をNIH CDEと整列させる際に、LLMを使用してCDEレコメンデーションと人間のキュレーションを支援する可能性を開放する。
さらに、この取り組みは臨床研究データの相互運用性を強化し、研究者がローカルデータ要素とNIH CDE間のギャップをよりよく理解するのに役立つ。
関連論文リスト
- Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search [25.108044778194536]
命令を効率的に合成するスケーラブルなフレームワークであるIDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search)を紹介した。
木探索と評価モデルにより、各命令を効率よくガイドして高品質な形式に進化させ、命令の微調整を支援することができる。
実験の結果、IDEA-MCTSはシードインストラクションデータを大幅に向上させ、品質、多様性、複雑さの平均評価スコアを2.19から3.81に引き上げた。
論文 参考訳(メタデータ) (2024-10-14T11:28:30Z) - Pseudo Label-Guided Data Fusion and Output Consistency for
Semi-Supervised Medical Image Segmentation [9.93871075239635]
より少ないアノテーションで医用画像のセグメンテーションを行うための平均教師ネットワーク上に構築されたPLGDFフレームワークを提案する。
本稿では,ラベル付きデータとラベルなしデータを組み合わせてデータセットを効果的に拡張する,新しい擬似ラベル利用方式を提案する。
本フレームワークは,最先端の6つの半教師あり学習手法と比較して,優れた性能が得られる。
論文 参考訳(メタデータ) (2023-11-17T06:36:43Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Extraction of volumetric indices from echocardiography: which deep
learning solution for clinical use? [6.144041824426555]
提案した3D nnU-Netは,2D法と繰り返しセグメンテーション法よりも優れていることを示す。
実験の結果、十分なトレーニングデータがあれば、3D nnU-Netは日常的な臨床機器の基準を満たす最初の自動化ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-03T09:38:52Z) - Another Use of SMOTE for Interpretable Data Collaboration Analysis [8.143750358586072]
データコラボレーション(DC)分析は、複数の機関にわたるプライバシー保護統合分析のために開発された。
本研究では,データ漏洩のリスクを増大させることなく,認識性能を向上させるアンカーデータ構築手法を提案する。
論文 参考訳(メタデータ) (2022-08-26T06:39:13Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - GCoNet+: A Stronger Group Collaborative Co-Salient Object Detector [156.43671738038657]
本稿では,GCoNet+と呼ばれる新しいグループ協調学習ネットワークを提案する。
GCoNet+は自然界における共存対象を効果的かつ効率的に識別することができる。
論文 参考訳(メタデータ) (2022-05-30T23:49:19Z) - Data Splits and Metrics for Method Benchmarking on Surgical Action
Triplet Datasets [3.4026511783923667]
CholecT50は50のビデオ手術用データセットで, 手術を楽器, 動詞, ターゲットのトリプルとして定式化する。
CholecT45は、ColecT50データセットの45ビデオの最初の公開リリースである。
論文 参考訳(メタデータ) (2022-04-11T16:32:25Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。