論文の概要: Scalable Unit Harmonization in Medical Informatics Using Bi-directional Transformers and Bayesian-Optimized BM25 and Sentence Embedding Retrieval
- arxiv url: http://arxiv.org/abs/2505.00810v1
- Date: Thu, 01 May 2025 19:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.803918
- Title: Scalable Unit Harmonization in Medical Informatics Using Bi-directional Transformers and Bayesian-Optimized BM25 and Sentence Embedding Retrieval
- Title(参考訳): 双方向変換器とベイズ最適化BM25と文埋め込み検索を用いた医療インフォマティクスにおける拡張単位調和
- Authors: Jordi de la Torre,
- Abstract要約: 我々は,大規模臨床データセットにおける一貫性のない単位を調和させるスケーラブルな手法を開発した。
フィルタリング、識別、調和提案生成、自動再ランク付け、手動検証といったマルチステージパイプラインを実装している。
このシステムはランク1で83.39%の精度、ランク5で94.66%のリコールを達成した。
- 参考スコア(独自算出の注目度): 0.14504054468850663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: To develop and evaluate a scalable methodology for harmonizing inconsistent units in large-scale clinical datasets, addressing a key barrier to data interoperability. Materials and Methods: We designed a novel unit harmonization system combining BM25, sentence embeddings, Bayesian optimization, and a bidirectional transformer based binary classifier for retrieving and matching laboratory test entries. The system was evaluated using the Optum Clinformatics Datamart dataset (7.5 billion entries). We implemented a multi-stage pipeline: filtering, identification, harmonization proposal generation, automated re-ranking, and manual validation. Performance was assessed using Mean Reciprocal Rank (MRR) and other standard information retrieval metrics. Results: Our hybrid retrieval approach combining BM25 and sentence embeddings (MRR: 0.8833) significantly outperformed both lexical-only (MRR: 0.7985) and embedding-only (MRR: 0.5277) approaches. The transformer-based reranker further improved performance (absolute MRR improvement: 0.10), bringing the final system MRR to 0.9833. The system achieved 83.39\% precision at rank 1 and 94.66\% recall at rank 5. Discussion: The hybrid architecture effectively leverages the complementary strengths of lexical and semantic approaches. The reranker addresses cases where initial retrieval components make errors due to complex semantic relationships in medical terminology. Conclusion: Our framework provides an efficient, scalable solution for unit harmonization in clinical datasets, reducing manual effort while improving accuracy. Once harmonized, data can be reused seamlessly in different analyses, ensuring consistency across healthcare systems and enabling more reliable multi-institutional studies and meta-analyses.
- Abstract(参考訳): 目的: 大規模臨床データセットにおいて不整合ユニットを調和させるスケーラブルな手法を開発し,評価すること。
材料と方法: BM25, 文埋め込み, ベイズ最適化, 双方向トランスフォーマーに基づくバイナリ分類器を組み合わせた, 実験室試験項目の検索と一致のための新しいユニット調和システムを構築した。
このシステムはOptum Clinformatics Datamartデータセット(750億エントリ)を用いて評価された。
我々は、フィルタリング、識別、調和提案生成、自動再ランク付け、手動検証というマルチステージパイプラインを実装した。
平均相反ランク(MRR)およびその他の標準情報検索指標を用いて評価を行った。
結果: BM25 と文埋め込み (MRR: 0.8833) を併用したハイブリッド検索手法は, 語彙のみ (MRR: 0.7985) と埋め込みのみ (MRR: 0.5277) の両方で有意に優れていた。
トランスをベースとしたリランカーはさらなる性能向上(絶対MRRの改善:0.10)を行い、最終的なシステムMRRは0.9833となった。
このシステムはランク1で83.39\%の精度、ランク5で94.66\%のリコールを達成した。
議論:ハイブリッドアーキテクチャは、語彙的および意味的アプローチの補完的な強みを効果的に活用する。
リランカは、医学用語の複雑な意味関係により、初期検索コンポーネントがエラーを起こすケースに対処する。
結論: このフレームワークは, 臨床データセットの単体調和を効果的かつスケーラブルに実現し, 手作業の労力を削減し, 精度を向上する。
一度調和すると、データは異なる分析でシームレスに再利用でき、医療システム間の一貫性を確保し、より信頼性の高い多施設研究とメタ分析を可能にします。
関連論文リスト
- DAT: Dynamic Alpha Tuning for Hybrid Retrieval in Retrieval-Augmented Generation [0.0]
DAT(Dynamic Alpha Tuning)は,クエリ毎に密度の高い検索とBM25のバランスをとる,新しいハイブリッド検索フレームワークである。
固定重み付きハイブリッド検索法を様々な評価指標で一貫して上回る。
小さなモデルであっても、DATは高いパフォーマンスを提供し、その効率性と適応性を強調します。
論文 参考訳(メタデータ) (2025-03-29T08:35:01Z) - Enhanced ECG Arrhythmia Detection Accuracy by Optimizing Divergence-Based Data Fusion [5.575308369829893]
ケルネル密度推定(KDE)とクルバック・リーブラー(KL)の発散を利用した特徴量に基づく融合アルゴリズムを提案する。
健常者2000名, 病人2000名から収集した心電図による社内データセットを用いて, PTB-XLデータセットを用いて本手法の検証を行った。
その結果, 本手法は, 統合データセットにおける異常心電図症例の特徴に基づく分類精度を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-03-19T12:16:48Z) - Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.7779568951268254]
本稿では,現在公開されているSaarbr"ucken Voice Databaseを用いた音声病理診断手法を提案する。
機械学習(ML)アルゴリズムを6つ評価する - サポートベクターマシン、kネアレスト隣人、ナイーブベイズ、決定木、ランダムフォレスト、AdaBoost。
アプローチは, 女性, 男性, 合計で85.61%, 84.69%, および85.22%であった。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Large language models are good medical coders, if provided with tools [0.0]
本研究は,ICD-10-CM自動医療符号化のための2段階リトリーブ・ランクシステムを提案する。
両方のシステムを100の単一長期医療条件のデータセットで評価する。
Retrieve-Rank システムは正しい ICD-10-CM 符号の予測において100%の精度を達成した。
論文 参考訳(メタデータ) (2024-07-06T06:58:51Z) - EKGNet: A 10.96{\mu}W Fully Analog Neural Network for Intra-Patient
Arrhythmia Classification [79.7946379395238]
心電図不整脈分類におけるアナログ計算と深層学習を組み合わせた統合的アプローチを提案する。
本稿では,低消費電力で高精度にアーカイブするハードウェア効率と完全アナログ不整脈分類アーキテクチャであるEKGNetを提案する。
論文 参考訳(メタデータ) (2023-10-24T02:37:49Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Quality-Based Conditional Processing in Multi-Biometrics: Application to
Sensor Interoperability [63.05238390013457]
2007年のバイオセキュリティ・マルチモーダル・アセスメント・キャンペーンにおいて,ATVS-UAM融合手法を品質ベースで評価し,評価を行った。
我々のアプローチは線形ロジスティック回帰に基づいており、融合したスコアはログライクな比率になる傾向にある。
その結果,提案手法はルールベースの核融合方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-24T12:11:22Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。