論文の概要: Uncertainty-Aware Adaptation of Large Language Models for Protein-Protein Interaction Analysis
- arxiv url: http://arxiv.org/abs/2502.06173v1
- Date: Mon, 10 Feb 2025 05:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:36:33.060377
- Title: Uncertainty-Aware Adaptation of Large Language Models for Protein-Protein Interaction Analysis
- Title(参考訳): タンパク質-タンパク質相互作用解析のための大規模言語モデルの不確実性認識適応
- Authors: Sanket Jantre, Tianle Wang, Gilchan Park, Kriti Chopra, Nicholas Jeon, Xiaoning Qian, Nathan M. Urban, Byung-Jun Yoon,
- Abstract要約: 大規模言語モデル(LLM)は、タンパク質の構造や相互作用を予測する際、顕著な可能性を示している。
しかし、それらの固有の不確実性は再現可能な発見を導き出す上で重要な課題である。
微調整LLaMA-3とBioMedGPTモデルを利用して,PPI解析のためのLLMの不確実性を考慮した適応を提案する。
- 参考スコア(独自算出の注目度): 10.67543730905283
- License:
- Abstract: Identification of protein-protein interactions (PPIs) helps derive cellular mechanistic understanding, particularly in the context of complex conditions such as neurodegenerative disorders, metabolic syndromes, and cancer. Large Language Models (LLMs) have demonstrated remarkable potential in predicting protein structures and interactions via automated mining of vast biomedical literature; yet their inherent uncertainty remains a key challenge for deriving reproducible findings, critical for biomedical applications. In this study, we present an uncertainty-aware adaptation of LLMs for PPI analysis, leveraging fine-tuned LLaMA-3 and BioMedGPT models. To enhance prediction reliability, we integrate LoRA ensembles and Bayesian LoRA models for uncertainty quantification (UQ), ensuring confidence-calibrated insights into protein behavior. Our approach achieves competitive performance in PPI identification across diverse disease contexts while addressing model uncertainty, thereby enhancing trustworthiness and reproducibility in computational biology. These findings underscore the potential of uncertainty-aware LLM adaptation for advancing precision medicine and biomedical research.
- Abstract(参考訳): タンパク質とタンパク質の相互作用(PPI)の同定は、特に神経変性疾患、メタボリックシンドローム、がんなどの複雑な状態の文脈において、細胞の機械的理解の導出に役立つ。
大規模言語モデル (LLMs) は、膨大な生物医学文献の自動採掘を通じてタンパク質構造や相互作用を予測する際、顕著な可能性を示しているが、その固有の不確実性は、生物医学的応用に不可欠な再現可能な発見を導き出す上で重要な課題である。
本研究では, 微調整 LLaMA-3 と BioMedGPT モデルを用いて, PPI 解析のための LLM の不確実性を考慮した適応手法を提案する。
予測信頼性を高めるため,不確実性定量化(UQ)のためのLoRAアンサンブルとベイジアンLoRAモデルを統合し,タンパク質の挙動に対する信頼性を検証した。
提案手法は, モデル不確実性に対処しながら, 様々な疾患文脈におけるPPI識別における競合性能を実現し, 計算生物学における信頼性と再現性を向上する。
これらの知見は, 精密医療・生物医学研究における不確実性を考慮したLCM適応の可能性を明らかにするものである。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Reviewing AI's Role in Non-Muscle-Invasive Bladder Cancer Recurrence Prediction [0.4369058206183195]
非筋浸潤性膀胱癌(NMIBC)は人体に重大な負担を課し、治療に最も費用がかかるがんの1つである。
NMIBCの再発を予測するための現在のツールは、しばしばリスクを過大評価し、精度が低いスコアシステムに依存している。
機械学習(ML)ベースの技術は、分子および臨床データを活用することでNMIBC再発を予測するための有望なアプローチとして登場した。
論文 参考訳(メタデータ) (2024-03-15T17:03:45Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks [0.6282171844772422]
大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。
バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
論文 参考訳(メタデータ) (2024-02-16T09:29:38Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Interpretability from a new lens: Integrating Stratification and Domain
knowledge for Biomedical Applications [0.0]
本稿では, バイオメディカル問題データセットの k-fold cross-validation (CV) への階層化のための新しい計算手法を提案する。
このアプローチはモデルの安定性を改善し、信頼を確立し、トレーニングされたIMLモデルによって生成された結果の説明を提供する。
論文 参考訳(メタデータ) (2023-03-15T12:02:02Z) - Intelligent diagnostic scheme for lung cancer screening with Raman
spectra data by tensor network machine learning [10.813777115744362]
呼気中の揮発性有機化合物(VOC)のラマンスペクトルデータをスクリーニングすることにより,肺がん患者とそのステージを確実に予測するテンソルネットワーク(TN)-ML法を提案する。
高い確実性を持つサンプルの精度はほぼ100$%$である。
論文 参考訳(メタデータ) (2023-03-11T07:57:37Z) - Functional Integrative Bayesian Analysis of High-dimensional
Multiplatform Genomic Data [0.8029049649310213]
我々は高次元多プラットフォームゲノミクスデータ(fiBAG)の関数積分ベイズ解析というフレームワークを提案する。
fiBAGは、プロテオゲノムバイオマーカーの上流での機能的証拠の同時同定を可能にする。
本研究は,14種類のがんのパン・カンサー解析を用いて,fiBAGの収益性を示す。
論文 参考訳(メタデータ) (2022-12-29T03:31:45Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Neuro-symbolic Neurodegenerative Disease Modeling as Probabilistic
Programmed Deep Kernels [93.58854458951431]
本稿では、神経変性疾患のパーソナライズされた予測モデリングのための、確率的プログラムによる深層カーネル学習手法を提案する。
我々の分析は、ニューラルネットワークとシンボリック機械学習のアプローチのスペクトルを考慮する。
我々は、アルツハイマー病の予測問題について評価を行い、深層学習を超越した結果を得た。
論文 参考訳(メタデータ) (2020-09-16T15:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。