論文の概要: Mapping Biomedical Ontology Terms to IDs: Effect of Domain Prevalence on Prediction Accuracy
- arxiv url: http://arxiv.org/abs/2409.13746v2
- Date: Mon, 12 May 2025 15:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.674392
- Title: Mapping Biomedical Ontology Terms to IDs: Effect of Domain Prevalence on Prediction Accuracy
- Title(参考訳): 生体オントロジー用語をIDにマッピングする:ドメインの頻度が予測精度に及ぼす影響
- Authors: Thanh Son Do, Daniel B. Hier, Tayo Obafemi-Ajayi,
- Abstract要約: オントロジーIDの頻度はHPOの単語をHPOのID、GOの単語をGOのID、タンパク質の名前をUniProtKBのアクセス番号に正確にマッピングすることを強く予測する。
文献におけるHUGO遺伝子シンボルの頻度が高いため、これらのシンボルはレキシカル化され、GPT-4はタンパク質名を高い精度でHUGO遺伝子シンボルにマッピングすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the ability of large language models (LLMs) to map biomedical ontology terms to their corresponding ontology IDs across the Human Phenotype Ontology (HPO), Gene Ontology (GO), and UniProtKB terminologies. Using counts of ontology IDs in the PubMed Central (PMC) dataset as a surrogate for their prevalence in the biomedical literature, we examined the relationship between ontology ID prevalence and mapping accuracy. Results indicate that ontology ID prevalence strongly predicts accurate mapping of HPO terms to HPO IDs, GO terms to GO IDs, and protein names to UniProtKB accession numbers. Higher prevalence of ontology IDs in the biomedical literature correlated with higher mapping accuracy. Predictive models based on receiver operating characteristic (ROC) curves confirmed this relationship. In contrast, this pattern did not apply to mapping protein names to Human Genome Organisation's (HUGO) gene symbols. GPT-4 achieved a high baseline performance (95%) in mapping protein names to HUGO gene symbols, with mapping accuracy unaffected by prevalence. We propose that the high prevalence of HUGO gene symbols in the literature has caused these symbols to become lexicalized, enabling GPT-4 to map protein names to HUGO gene symbols with high accuracy. These findings highlight the limitations of LLMs in mapping ontology terms to low-prevalence ontology IDs and underscore the importance of incorporating ontology ID prevalence into the training and evaluation of LLMs for biomedical applications.
- Abstract(参考訳): 本研究は,ヒトフェノタイプオントロジー(HPO),遺伝子オントロジー(GO)およびUniProtKBの用語を用いて,生物医学的オントロジー用語を対応するオントロジーIDにマッピングする大規模言語モデル(LLM)の能力を評価する。
バイオメディカル文献において, PubMed Central (PMC) データセットのオントロジーID数を用いて, オントロジーIDの頻度とマッピング精度の関係について検討した。
その結果,オントロジーIDはHPOの単語をHPOのID,GOの単語をGOのID,タンパク質の名前をUniProtKBのアクセシオン番号に正確にマッピングすることを強く予測している。
生物医学文献におけるオントロジーIDの頻度はマッピング精度と相関した。
受信動作特性(ROC)曲線に基づく予測モデルにより,この関係が確認された。
対照的に、このパターンはヒトゲノム組織(Human Genome Organisation, HUGO)遺伝子記号のマッピングには適用されなかった。
GPT-4は、タンパク質名をHUGO遺伝子シンボルにマッピングする際の高いベースライン性能(95%)を達成し、マッピング精度は有病率の影響を受けなかった。
文献におけるHUGO遺伝子シンボルの頻度が高いことから,これらのシンボルがレキシカル化され,GPT-4がタンパク質名をHUGO遺伝子シンボルに高精度にマッピングできる可能性が示唆された。
これらの知見は、オントロジーを低頻度オントロジーIDにマッピングする際のLLMの限界を強調し、オントロジーIDを生体医学応用のためのLLMのトレーニングと評価に組み込むことの重要性を強調した。
関連論文リスト
- Evaluation of the Automated Labeling Method for Taxonomic Nomenclature Through Prompt-Optimized Large Language Model [0.0]
大型言語モデル(LLM)を用いた自動種名ラベル付けの実現可能性について検討した。
その結果, LLMによる分類は, 形態学, 地理学, 人文学のカテゴリーにおいて高い精度を達成できたことが示唆された。
今後の研究は、最適化された数ショット学習と検索強化生成技術による精度の向上に焦点を当てる。
論文 参考訳(メタデータ) (2025-03-08T23:11:43Z) - Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials [0.0]
機械学習の原子間ポテンシャルの不確実性推定は、導入した追加モデルエラーの定量化に不可欠である。
我々は、クーロンおよびSOAP表現を持つGPRモデルを、ポテンシャルエネルギー表面と分子の励起エネルギーを予測する入力として考える。
我々は,GPRの分散とアンサンブルに基づく不確かさが誤差とどのように関係しているか,また,固定された構成空間から最も不確実なサンプルを選択することによりモデル性能が向上するかを評価する。
論文 参考訳(メタデータ) (2024-10-27T10:06:09Z) - Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - STANet: A Novel Spatio-Temporal Aggregation Network for Depression Classification with Small and Unbalanced FMRI Data [12.344849949026989]
時間的特徴と空間的特徴の両方を捉えるために,CNNとRNNを統合してうつ病を診断するための時空間アグリゲーションネットワーク(STANet)を提案する。
実験の結果、STANetは82.38%の精度と90.72%のAUCでうつ病診断性能に優れていた。
論文 参考訳(メタデータ) (2024-07-31T04:06:47Z) - Interpreting artificial neural networks to detect genome-wide association signals for complex traits [0.0]
我々は人工ニューラルネットワークを訓練し、シミュレーションと実際のジェノタイプフェノタイプデータセットの両方を用いて複雑な特徴を予測する。
統合失調症に合併した多発性座位を指摘された。
論文 参考訳(メタデータ) (2024-07-26T15:20:42Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Highly Accurate Disease Diagnosis and Highly Reproducible Biomarker
Identification with PathFormer [32.26944736442376]
グラフニューラルネットワーク(GNN)は、グラフ構造化データを分析するための主要なディープラーニングモデルである。
課題の根源は、生物学的シグナル伝達経路のユニークなグラフ構造である。
本稿では,バイオマーカーのランク付けと疾患診断の予測のために,シグナルネットワーク,優先知識,オミクスデータを統合した新しいGNNモデルアーキテクチャPathFormerを提案する。
論文 参考訳(メタデータ) (2024-02-11T18:23:54Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - Deep Maxout Network-based Feature Fusion and Political Tangent Search Optimizer enabled Transfer Learning for Thalassemia Detection [0.9611928053603028]
タラセミア検出にPTSO_TL(Political Tangent Search based Transfer Learning)を導入する。
PTSO_TLは、それぞれ94.3%、96.1%、95.2%の最大精度、リコール、f測定値を得た。
論文 参考訳(メタデータ) (2023-08-03T20:45:11Z) - Gene Set Summarization using Large Language Models [1.312659265502151]
我々はGPTモデルを用いて遺伝子セット関数の要約を行う手法を開発した。
これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。
しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。
論文 参考訳(メタデータ) (2023-05-21T02:06:33Z) - Studying Limits of Explainability by Integrated Gradients for Gene
Expression Models [3.220287168504093]
重要度によるランク付け機能は,バイオマーカーの同定に十分ではないことを示す。
バイオマーカーが真理を知らないままに関係する原因を反映しているかどうかを評価することは難しいため、階層的モデルを提案することで遺伝子発現データをシミュレートする。
論文 参考訳(メタデータ) (2023-03-19T19:54:15Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Robust self-healing prediction model for high dimensional data [0.685316573653194]
本研究は、ロバスト自己治癒(RSH)ハイブリッド予測モデルを提案する。
それは、データを捨てるのではなく、エラーや不整合を取り除くことによって、データ全体を活用することによって機能する。
提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。
論文 参考訳(メタデータ) (2022-10-04T17:55:50Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Improving accuracy and uncertainty quantification of deep learning based
quantitative MRI using Monte Carlo dropout [2.290218701603077]
ドロップアウトは、通常、トレーニングフェーズ中に正規化方法として使われ、ディープラーニングにおける不確実性の定量化に使用される。
我々は,トレーニング中のドロップアウトと推論ステップを用いて,不確実性を低減・定量化しながら,精度を向上させるために平均的な複数の予測を行うことを提案する。
論文 参考訳(メタデータ) (2021-12-02T20:04:40Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。