論文の概要: A Dynamic Framework for Semantic Grouping of Common Data Elements (CDE) Using Embeddings and Clustering
- arxiv url: http://arxiv.org/abs/2506.02160v1
- Date: Mon, 02 Jun 2025 18:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.976171
- Title: A Dynamic Framework for Semantic Grouping of Common Data Elements (CDE) Using Embeddings and Clustering
- Title(参考訳): 埋め込みとクラスタリングを用いた共通データ要素(CDE)のセマンティックグルーピングのための動的フレームワーク
- Authors: Madan Krishnamurthy, Daniel Korn, Melissa A Haendel, Christopher J Mungall, Anne E Thessen,
- Abstract要約: 本研究の目的は、異種バイオメディカルデータセット間の共通データ要素(CDE)の調和を容易にする動的でスケーラブルなフレームワークを開発することである。
本手法では,CDEを意味的関係やパターンをキャプチャする高密度ベクトルに変換するコンテキスト対応テキスト埋め込みに,Large Language Models (LLMs) を利用する。
- 参考スコア(独自算出の注目度): 0.782496834711349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research aims to develop a dynamic and scalable framework to facilitate harmonization of Common Data Elements (CDEs) across heterogeneous biomedical datasets by addressing challenges such as semantic heterogeneity, structural variability, and context dependence to streamline integration, enhance interoperability, and accelerate scientific discovery. Our methodology leverages Large Language Models (LLMs) for context-aware text embeddings that convert CDEs into dense vectors capturing semantic relationships and patterns. These embeddings are clustered using Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN) to group semantically similar CDEs. The framework incorporates four key steps: (1) LLM-based text embedding to mathematically represent semantic context, (2) unsupervised clustering of embeddings via HDBSCAN, (3) automated labeling using LLM summarization, and (4) supervised learning to train a classifier assigning new or unclustered CDEs to labeled clusters. Evaluated on the NIH NLM CDE Repository with over 24,000 CDEs, the system identified 118 meaningful clusters at an optimized minimum cluster size of 20. The classifier achieved 90.46 percent overall accuracy, performing best in larger categories. External validation against Gravity Projects Social Determinants of Health domains showed strong agreement (Adjusted Rand Index 0.52, Normalized Mutual Information 0.78), indicating that embeddings effectively capture cluster characteristics. This adaptable and scalable approach offers a practical solution to CDE harmonization, improving selection efficiency and supporting ongoing data interoperability.
- Abstract(参考訳): 本研究の目的は, セマンティックな異種性, 構造的変動性, コンテキスト依存といった課題に対処し, 相互接続性を高め, 科学的発見を促進することによって, 異種バイオメディカルデータセット間の共通データ要素(CDE)の調和を容易にする動的でスケーラブルなフレームワークを開発することである。
本手法では,CDEを意味的関係やパターンを抽出する高密度ベクトルに変換する文脈対応テキスト埋め込みに,Large Language Models (LLMs) を利用する。
これらの埋め込みは階層的密度に基づくHDBSCAN(Spatial Clustering of Applications with Noise)を使用してクラスタ化され、セマンティックに類似したCDEをグループ化する。
本フレームワークは,(1) 意味文脈を数学的に表現するための LLM ベースのテキスト埋め込み,(2) HDBSCAN による埋め込みの教師なしクラスタリング,(3) LLM の要約を用いた自動ラベリング,(4) ラベル付きクラスタに新規または未クラスタの CDE を割り当てる分類器を訓練するための教師付き学習,の4つのステップを含む。
NIH NLM CDEレポジトリを24,000以上のCDEで評価し、最適化された最小クラスタサイズ20で118の有意義なクラスタを特定した。
分類器は90.6%の精度を達成し、より大きなカテゴリーで最高の成績を収めた。
重力プロジェクトに対する外的検証 健康ドメインの社会的決定要因は強い一致を示し(調整ランダム指数0.52、正規化相互情報0.78)、埋め込みがクラスタ特性を効果的に捉えていることを示す。
この適応的でスケーラブルなアプローチは、CDE調和の実践的なソリューションを提供し、選択効率を改善し、進行中のデータ相互運用性をサポートする。
関連論文リスト
- Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Manifold Clustering with Schatten p-norm Maximization [16.90743611125625]
我々は,多様体クラスタリングに基づく新しいクラスタリングフレームワークを開発した。
具体的には、アルゴリズムはラベルを使用して多様体の構造をガイドし、その上にクラスタリングを行う。
クラスタリング過程におけるクラスバランスを自然に維持するために、ラベルのシャッテン p-ノルムを最大化する。
論文 参考訳(メタデータ) (2025-04-29T03:23:06Z) - Hierarchical clustering with maximum density paths and mixture models [44.443538161979056]
t-NEBは確率的に基底化された階層的クラスタリング法である。
自然な高次元データに対して最先端のクラスタリング性能が得られる。
論文 参考訳(メタデータ) (2025-03-19T15:37:51Z) - Dial-In LLM: Human-Aligned LLM-in-the-loop Intent Clustering for Customer Service Dialogues [13.891718772119575]
本稿ではLLM-in-the-loopインテントクラスタリングフレームワークを提案する。
LLMのセマンティック理解機能を従来のクラスタリングアルゴリズムに統合する。
95%以上の精度で人間の判断に合致する。
論文 参考訳(メタデータ) (2024-12-12T08:19:01Z) - AdaptiveMDL-GenClust: A Robust Clustering Framework Integrating Normalized Mutual Information and Evolutionary Algorithms [0.0]
我々は,最小記述長(MDL)原理と遺伝的最適化アルゴリズムを組み合わせたロバストクラスタリングフレームワークを提案する。
このフレームワークは、初期クラスタリングソリューションを生成するためのアンサンブルクラスタリングアプローチから始まり、MDL誘導評価関数を使用して洗練され、遺伝的アルゴリズムによって最適化される。
実験の結果,従来のクラスタリング手法を一貫して上回り,精度の向上,安定性の向上,バイアス低減を実現している。
論文 参考訳(メタデータ) (2024-11-26T20:26:14Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A Framework for Joint Unsupervised Learning of Cluster-Aware Embedding
for Heterogeneous Networks [6.900303913555705]
Heterogeneous Information Network (HIN) は、HINの構造と意味を保存しているHINノードの低次元投影を指す。
本稿では,クラスタ埋め込みとクラスタ認識HIN埋め込みの併用学習を提案する。
論文 参考訳(メタデータ) (2021-08-09T11:36:36Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。