論文の概要: When Less Is Not More: Large Language Models Normalize Less-Frequent Terms with Lower Accuracy
- arxiv url: http://arxiv.org/abs/2409.13746v1
- Date: Wed, 11 Sep 2024 21:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:24:17.946827
- Title: When Less Is Not More: Large Language Models Normalize Less-Frequent Terms with Lower Accuracy
- Title(参考訳): あまり多くない場合:大規模言語モデルは低頻度で精度の低い用語を正規化する
- Authors: Daniel B. Hier, Thanh Son Do, Tayo Obafemi-Ajayi,
- Abstract要約: 大型言語モデル (LLM) はHuman Phenotype Ontology (HPO) の用語を正規化することができる
この研究では、GPT-4oは11,225の固有項を正規化して13.1%の精度を達成した。
精度は不均一に分布し、より高頻度で短い用語は低頻度で長い用語よりも正確に正規化された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Term normalization is the process of mapping a term from free text to a standardized concept and its machine-readable code in an ontology. Accurate normalization of terms that capture phenotypic differences between patients and diseases is critical to the success of precision medicine initiatives. A large language model (LLM), such as GPT-4o, can normalize terms to the Human Phenotype Ontology (HPO), but it may retrieve incorrect HPO IDs. Reported accuracy rates for LLMs on these tasks may be inflated due to imbalanced test datasets skewed towards high-frequency terms. In our study, using a comprehensive dataset of 268,776 phenotype annotations for 12,655 diseases from the HPO, GPT-4o achieved an accuracy of 13.1% in normalizing 11,225 unique terms. However, the accuracy was unevenly distributed, with higher-frequency and shorter terms normalized more accurately than lower-frequency and longer terms. Feature importance analysis, using SHAP and permutation methods, identified low-term frequency as the most significant predictor of normalization errors. These findings suggest that training and evaluation datasets for LLM-based term normalization should balance low- and high-frequency terms to improve model performance, particularly for infrequent terms critical to precision medicine.
- Abstract(参考訳): 用語の正規化は、用語を自由テキストから標準化された概念にマッピングするプロセスであり、その機械可読コードはオントロジーで記述される。
患者と疾患の表現型の違いを捉える用語の正確な正規化は、精密医療イニシアチブの成功に不可欠である。
GPT-4oのような大きな言語モデル (LLM) はHuman Phenotype Ontology (HPO) の用語を正規化することができるが、誤ったHPO IDを検索することができる。
これらのタスクにおけるLSMの精度の報告は、高周波の項に歪んだ不均衡なテストデータセットのために膨らませられる可能性がある。
GPT-4oはHPOの2,655疾患に対する268,776の表現型アノテーションの包括的なデータセットを用いて,11,225の独自用語の正常化において13.1%の精度を達成した。
しかし、精度は不均一に分布し、より高頻度で短い用語は低頻度で長い用語よりもより正確に正規化された。
SHAPと置換法を用いて特徴重要度分析を行い、正規化誤差の最も重要な予測因子として低周波を同定した。
これらの結果から, LLM を用いた用語正規化のためのトレーニングおよび評価データセットは, モデル性能を改善するために低頻度と高頻度の用語のバランスをとる必要があることが示唆された。
関連論文リスト
- Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials [0.0]
機械学習の原子間ポテンシャルの不確実性推定は、導入した追加モデルエラーの定量化に不可欠である。
我々は、クーロンおよびSOAP表現を持つGPRモデルを、ポテンシャルエネルギー表面と分子の励起エネルギーを予測する入力として考える。
我々は,GPRの分散とアンサンブルに基づく不確かさが誤差とどのように関係しているか,また,固定された構成空間から最も不確実なサンプルを選択することによりモデル性能が向上するかを評価する。
論文 参考訳(メタデータ) (2024-10-27T10:06:09Z) - Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - STANet: A Novel Spatio-Temporal Aggregation Network for Depression Classification with Small and Unbalanced FMRI Data [12.344849949026989]
時間的特徴と空間的特徴の両方を捉えるために,CNNとRNNを統合してうつ病を診断するための時空間アグリゲーションネットワーク(STANet)を提案する。
実験の結果、STANetは82.38%の精度と90.72%のAUCでうつ病診断性能に優れていた。
論文 参考訳(メタデータ) (2024-07-31T04:06:47Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Deep Maxout Network-based Feature Fusion and Political Tangent Search Optimizer enabled Transfer Learning for Thalassemia Detection [0.9611928053603028]
タラセミア検出にPTSO_TL(Political Tangent Search based Transfer Learning)を導入する。
PTSO_TLは、それぞれ94.3%、96.1%、95.2%の最大精度、リコール、f測定値を得た。
論文 参考訳(メタデータ) (2023-08-03T20:45:11Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Robust self-healing prediction model for high dimensional data [0.685316573653194]
本研究は、ロバスト自己治癒(RSH)ハイブリッド予測モデルを提案する。
それは、データを捨てるのではなく、エラーや不整合を取り除くことによって、データ全体を活用することによって機能する。
提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。
論文 参考訳(メタデータ) (2022-10-04T17:55:50Z) - Improving accuracy and uncertainty quantification of deep learning based
quantitative MRI using Monte Carlo dropout [2.290218701603077]
ドロップアウトは、通常、トレーニングフェーズ中に正規化方法として使われ、ディープラーニングにおける不確実性の定量化に使用される。
我々は,トレーニング中のドロップアウトと推論ステップを用いて,不確実性を低減・定量化しながら,精度を向上させるために平均的な複数の予測を行うことを提案する。
論文 参考訳(メタデータ) (2021-12-02T20:04:40Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。