論文の概要: Mapping Biomedical Ontology Terms to IDs: Effect of Domain Prevalence on Prediction Accuracy
- arxiv url: http://arxiv.org/abs/2409.13746v2
- Date: Mon, 12 May 2025 15:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.674392
- Title: Mapping Biomedical Ontology Terms to IDs: Effect of Domain Prevalence on Prediction Accuracy
- Title(参考訳): 生体オントロジー用語をIDにマッピングする:ドメインの頻度が予測精度に及ぼす影響
- Authors: Thanh Son Do, Daniel B. Hier, Tayo Obafemi-Ajayi,
- Abstract要約: オントロジーIDの頻度はHPOの単語をHPOのID、GOの単語をGOのID、タンパク質の名前をUniProtKBのアクセス番号に正確にマッピングすることを強く予測する。
文献におけるHUGO遺伝子シンボルの頻度が高いため、これらのシンボルはレキシカル化され、GPT-4はタンパク質名を高い精度でHUGO遺伝子シンボルにマッピングすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the ability of large language models (LLMs) to map biomedical ontology terms to their corresponding ontology IDs across the Human Phenotype Ontology (HPO), Gene Ontology (GO), and UniProtKB terminologies. Using counts of ontology IDs in the PubMed Central (PMC) dataset as a surrogate for their prevalence in the biomedical literature, we examined the relationship between ontology ID prevalence and mapping accuracy. Results indicate that ontology ID prevalence strongly predicts accurate mapping of HPO terms to HPO IDs, GO terms to GO IDs, and protein names to UniProtKB accession numbers. Higher prevalence of ontology IDs in the biomedical literature correlated with higher mapping accuracy. Predictive models based on receiver operating characteristic (ROC) curves confirmed this relationship. In contrast, this pattern did not apply to mapping protein names to Human Genome Organisation's (HUGO) gene symbols. GPT-4 achieved a high baseline performance (95%) in mapping protein names to HUGO gene symbols, with mapping accuracy unaffected by prevalence. We propose that the high prevalence of HUGO gene symbols in the literature has caused these symbols to become lexicalized, enabling GPT-4 to map protein names to HUGO gene symbols with high accuracy. These findings highlight the limitations of LLMs in mapping ontology terms to low-prevalence ontology IDs and underscore the importance of incorporating ontology ID prevalence into the training and evaluation of LLMs for biomedical applications.
- Abstract(参考訳): 本研究は,ヒトフェノタイプオントロジー(HPO),遺伝子オントロジー(GO)およびUniProtKBの用語を用いて,生物医学的オントロジー用語を対応するオントロジーIDにマッピングする大規模言語モデル(LLM)の能力を評価する。
バイオメディカル文献において, PubMed Central (PMC) データセットのオントロジーID数を用いて, オントロジーIDの頻度とマッピング精度の関係について検討した。
その結果,オントロジーIDはHPOの単語をHPOのID,GOの単語をGOのID,タンパク質の名前をUniProtKBのアクセシオン番号に正確にマッピングすることを強く予測している。
生物医学文献におけるオントロジーIDの頻度はマッピング精度と相関した。
受信動作特性(ROC)曲線に基づく予測モデルにより,この関係が確認された。
対照的に、このパターンはヒトゲノム組織(Human Genome Organisation, HUGO)遺伝子記号のマッピングには適用されなかった。
GPT-4は、タンパク質名をHUGO遺伝子シンボルにマッピングする際の高いベースライン性能(95%)を達成し、マッピング精度は有病率の影響を受けなかった。
文献におけるHUGO遺伝子シンボルの頻度が高いことから,これらのシンボルがレキシカル化され,GPT-4がタンパク質名をHUGO遺伝子シンボルに高精度にマッピングできる可能性が示唆された。
これらの知見は、オントロジーを低頻度オントロジーIDにマッピングする際のLLMの限界を強調し、オントロジーIDを生体医学応用のためのLLMのトレーニングと評価に組み込むことの重要性を強調した。
関連論文リスト
- Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials [0.0]
機械学習の原子間ポテンシャルの不確実性推定は、導入した追加モデルエラーの定量化に不可欠である。
我々は、クーロンおよびSOAP表現を持つGPRモデルを、ポテンシャルエネルギー表面と分子の励起エネルギーを予測する入力として考える。
我々は,GPRの分散とアンサンブルに基づく不確かさが誤差とどのように関係しているか,また,固定された構成空間から最も不確実なサンプルを選択することによりモデル性能が向上するかを評価する。
論文 参考訳(メタデータ) (2024-10-27T10:06:09Z) - Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - STANet: A Novel Spatio-Temporal Aggregation Network for Depression Classification with Small and Unbalanced FMRI Data [12.344849949026989]
時間的特徴と空間的特徴の両方を捉えるために,CNNとRNNを統合してうつ病を診断するための時空間アグリゲーションネットワーク(STANet)を提案する。
実験の結果、STANetは82.38%の精度と90.72%のAUCでうつ病診断性能に優れていた。
論文 参考訳(メタデータ) (2024-07-31T04:06:47Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Deep Maxout Network-based Feature Fusion and Political Tangent Search Optimizer enabled Transfer Learning for Thalassemia Detection [0.9611928053603028]
タラセミア検出にPTSO_TL(Political Tangent Search based Transfer Learning)を導入する。
PTSO_TLは、それぞれ94.3%、96.1%、95.2%の最大精度、リコール、f測定値を得た。
論文 参考訳(メタデータ) (2023-08-03T20:45:11Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Robust self-healing prediction model for high dimensional data [0.685316573653194]
本研究は、ロバスト自己治癒(RSH)ハイブリッド予測モデルを提案する。
それは、データを捨てるのではなく、エラーや不整合を取り除くことによって、データ全体を活用することによって機能する。
提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。
論文 参考訳(メタデータ) (2022-10-04T17:55:50Z) - Improving accuracy and uncertainty quantification of deep learning based
quantitative MRI using Monte Carlo dropout [2.290218701603077]
ドロップアウトは、通常、トレーニングフェーズ中に正規化方法として使われ、ディープラーニングにおける不確実性の定量化に使用される。
我々は,トレーニング中のドロップアウトと推論ステップを用いて,不確実性を低減・定量化しながら,精度を向上させるために平均的な複数の予測を行うことを提案する。
論文 参考訳(メタデータ) (2021-12-02T20:04:40Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。