論文の概要: A Natural Language Processing Approach to Support Biomedical Data Harmonization: Leveraging Large Language Models
- arxiv url: http://arxiv.org/abs/2411.02730v1
- Date: Tue, 05 Nov 2024 01:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:18.939395
- Title: A Natural Language Processing Approach to Support Biomedical Data Harmonization: Leveraging Large Language Models
- Title(参考訳): バイオメディカルデータ調和を支援する自然言語処理アプローチ:大規模言語モデルの活用
- Authors: Zexu Li, Suraj P. Prabhu, Zachary T. Popp, Shubhi S. Jain, Vijetha Balakundi, Ting Fang Alvin Ang, Rhoda Au, Jinying Chen,
- Abstract要約: 医学的な研究は、偏見のない結果を生み出すために、多種多様なサンプルを必要とする。
我々は,大規模言語モデル(LLM)とアンサンブル学習を活用する新しい手法を開発した。
自動変数マッチングにおけるエラーの主な原因の1つは、データ辞書内のあいまいな変数定義である。
- 参考スコア(独自算出の注目度): 0.97733129796284
- License:
- Abstract: Biomedical research requires large, diverse samples to produce unbiased results. Automated methods for matching variables across datasets can accelerate this process. Research in this area has been limited, primarily focusing on lexical matching and ontology based semantic matching. We aimed to develop new methods, leveraging large language models (LLM) and ensemble learning, to automate variable matching. Methods: We utilized data from two GERAS cohort (European and Japan) studies to develop variable matching methods. We first manually created a dataset by matching 352 EU variables with 1322 candidate JP variables, where matched variable pairs were positive and unmatched pairs were negative instances. Using this dataset, we developed and evaluated two types of natural language processing (NLP) methods, which matched variables based on variable labels and definitions from data dictionaries: (1) LLM-based and (2) fuzzy matching. We then developed an ensemble-learning method, using the Random Forest model, to integrate individual NLP methods. RF was trained and evaluated on 50 trials. Each trial had a random split (4:1) of training and test sets, with the model's hyperparameters optimized through cross-validation on the training set. For each EU variable, 1322 candidate JP variables were ranked based on NLP-derived similarity scores or RF's probability scores, denoting their likelihood to match the EU variable. Ranking performance was measured by top-n hit ratio (HRn) and mean reciprocal rank (MRR). Results:E5 performed best among individual methods, achieving 0.90 HR-30 and 0.70 MRR. RF performed better than E5 on all metrics over 50 trials (P less than 0.001) and achieved an average HR 30 of 0.98 and MRR of 0.73. LLM-derived features contributed most to RF's performance. One major cause of errors in automatic variable matching was ambiguous variable definitions within data dictionaries.
- Abstract(参考訳): 医学的な研究は、偏見のない結果を生み出すために、多種多様なサンプルを必要とする。
データセット間で変数をマッチングするための自動メソッドは、このプロセスを加速することができる。
この領域の研究は限定的であり、主に語彙マッチングとオントロジーに基づく意味マッチングに焦点を当てている。
我々は,大規模言語モデル(LLM)とアンサンブル学習を利用して,変数マッチングを自動化する新しい手法の開発を目指していた。
方法:2つのGERASコホート(ヨーロッパと日本)研究のデータを用いて,変数マッチング法を開発した。
まず、352のEU変数と1322の候補JP変数をマッチングしてデータセットを手動で作成した。
このデータセットを用いて、変数ラベルとデータ辞書からの定義に基づいて変数をマッチングする2種類の自然言語処理法(NLP)を開発し、評価した。
そこで我々は,ランダムフォレストモデルを用いたアンサンブル学習法を開発し,個々のNLP手法を統合する。
RFは50の試験で訓練され評価された。
各試験では、トレーニングセットとテストセットをランダムに分割(4:1)し、モデルのハイパーパラメータはトレーニングセットのクロスバリデーションによって最適化された。
各EU変数について、NLP由来の類似度スコアまたはRFの確率スコアに基づいて、候補JP変数1322をランク付けし、EU変数に適合する可能性を示した。
ランク付け性能は,トップnヒット比 (HRn) と平均相互ランク (MRR) で測定した。
結果:E5は個々の方法の中で最も優れ,0.90 HR-30と0.70 MRRを達成した。
RFは50回の試験(Pは0.001未満)でE5よりも優れ、平均HR30は0.98、MRRは0.73である。
LLMから派生した特徴はRFの性能に大きく貢献した。
自動変数マッチングにおけるエラーの主な原因の1つは、データ辞書内のあいまいな変数定義である。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Adapting tree-based multiple imputation methods for multi-level data? A
simulation study [0.0]
本研究は,マルチレベルデータに対する多重計算手法の有効性を評価する。
連鎖方程式(MICE)による従来の多重計算の性能と木に基づく手法との比較を行う。
論文 参考訳(メタデータ) (2024-01-25T13:12:50Z) - Increasing Diversity While Maintaining Accuracy: Text Data Generation
with Large Language Models and Human Interventions [30.464763055981933]
大規模言語モデル(LLM)は、他のモデルのトレーニングや評価のためにテキストデータを生成するために用いられる。
LLMベースのテキストデータ生成において,高い多様性と精度を実現するために,人間とAIのパートナーシップを検討する。
論文 参考訳(メタデータ) (2023-06-07T04:27:09Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Predict then Interpolate: A Simple Algorithm to Learn Stable Classifiers [59.06169363181417]
Predict then Interpolate (PI) は環境全体にわたって安定な相関関係を学習するためのアルゴリズムである。
正しい予測と間違った予測の分布を補間することにより、不安定な相関が消えるオラクル分布を明らかにすることができる。
論文 参考訳(メタデータ) (2021-05-26T15:37:48Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。