論文の概要: Evaluating the Limitations of Protein Sequence Representations for Parkinson's Disease Classification
- arxiv url: http://arxiv.org/abs/2604.11852v1
- Date: Mon, 13 Apr 2026 03:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.0239
- Title: Evaluating the Limitations of Protein Sequence Representations for Parkinson's Disease Classification
- Title(参考訳): パーキンソン病分類におけるタンパク質配列表現の限界の評価
- Authors: César Jesús Núñez-Prado, Grigori Sidorov, Liliana Chanona-Hernández,
- Abstract要約: タンパク質配列は、生物学的情報の根本的で広く利用可能な源である。
複雑な疾患分類のための識別能力は未だ不明である。
ベストパフォーマンス設定(ProtBERT +)は0.704+/-0.028のF1スコアと0.748+/-0.047のROC-AUCを達成する。
- 参考スコア(独自算出の注目度): 6.24518052314374
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The identification of reliable molecular biomarkers for Parkinson's disease remains challenging due to its multifactorial nature. Although protein sequences constitute a fundamental and widely available source of biological information, their standalone discriminative capacity for complex disease classification remains unclear. In this work, we present a controlled and leakage-free evaluation of multiple representations derived exclusively from protein primary sequences, including amino acid composition, k-mers, physicochemical descriptors, hybrid representations, and embeddings from protein language models, all assessed under a nested stratified cross-validation framework to ensure unbiased performance estimation. The best-performing configuration (ProtBERT + MLP) achieves an F1-score of 0.704 +/- 0.028 and ROC-AUC of 0.748 +/- 0.047, indicating only moderate discriminative performance. Classical representations such as k-mers reach comparable F1 values (up to approximately 0.667), but exhibit highly imbalanced behavior, with recall close to 0.98 and precision around 0.50, reflecting a strong bias toward positive predictions. Across representations, performance differences remain within a narrow range (F1 between 0.60 and 0.70), while unsupervised analyses reveal no intrinsic structure aligned with class labels, and statistical testing (Friedman test, p = 0.1749) does not indicate significant differences across models. These results demonstrate substantial overlap between classes and indicate that primary sequence information alone provides limited discriminative power for Parkinson's disease classification. This work establishes a reproducible baseline and provides empirical evidence that more informative biological features, such as structural, functional, or interaction-based descriptors, are required for robust disease modeling.
- Abstract(参考訳): パーキンソン病に対する信頼性の高い分子バイオマーカーの同定は、多因子性のため、依然として困難である。
タンパク質配列は生物学的情報の根本的かつ広く利用可能な情報源となっているが、複雑な疾患分類のための独立した識別能力はいまだに不明である。
本研究では, アミノ酸組成, k-mers, 物理化学的記述子, ハイブリッド表現, およびタンパク質言語モデルからの埋め込みを含む, タンパク質一次配列から派生した複数の表現の制御および漏れのない評価を行い, 全て, ネストした層状クロスバリデーション・フレームワークを用いて評価し, 性能評価の偏りを確実にする。
最高のパフォーマンス設定(ProtBERT + MLP)は0.704 +/- 0.028のF1スコアと0.748 +/- 0.047のROC-AUCを達成し、中程度の識別性能しか示さない。
k-mersのような古典的な表現は F1 の値(最大で 0.667 まで)に達するが、高い不均衡な振る舞いを示し、リコールは 0.98 に近づき、精度は 0.50 に近づき、正の予測に対する強いバイアスを反映している。
表現全体では、性能差は狭い範囲(F1は0.60から0.70の間)に留まり、教師なし分析ではクラスラベルに沿った固有の構造は示されず、統計検査(Friedman test, p = 0.1749)はモデル間で有意な差異を示さない。
これらの結果は、クラス間でかなりの重複を示し、一次配列情報だけでパーキンソン病の分類に限定的な識別力を与えることを示している。
この研究は再現可能なベースラインを確立し、構造、機能、相互作用に基づく記述子などのより情報的な生物学的特徴が堅牢な疾患モデリングに必要であることを示す実証的な証拠を提供する。
関連論文リスト
- A Sparse-Attention Deep Learning Model Integrating Heterogeneous Multimodal Features for Parkinson's Disease Severity Profiling [4.813020904720317]
Class-Weighted Sparse-Attention Fusion Network (SAFN)は、堅牢なマルチモーダルプロファイリングのための解釈可能なディープラーニングフレームワークである。
SAFNは、MRI皮質厚み、MRI体積測定、臨床評価、人口統計学変数を統合している。
精度は0.98プラスまたは0.02、PR-AUCは1.00プラスまたは0.00で、確立された機械学習およびディープラーニングベースラインを上回っている。
論文 参考訳(メタデータ) (2026-01-02T00:51:21Z) - CytoDINO: Risk-Aware and Biologically-Informed Adaptation of DINOv3 for Bone Marrow Cytomorphology [0.0]
我々はミュンヘン白血病研究所のデータセット上で最先端のパフォーマンスを実現するフレームワークであるCytoDINOを紹介した。
私たちの主な貢献は、細胞間の生物学的な関係をコード化し、臨床的に危険な誤分類を明示的に罰する、ヒエララルカル・フーカル・ロス・ウィット・クリティカル・ペナルティ(Hierarchical Focal Loss with critical penalties)である。
CytoDINOは21種類のテストセットで88.2%の重み付きF1スコアと76.5%のマクロF1を達成している。
論文 参考訳(メタデータ) (2025-12-09T23:09:22Z) - CONFIDE: Hallucination Assessment for Reliable Biomolecular Structure Prediction and Design [46.12506067241116]
本稿では,位相的フラストレーションを定量化する自己評価尺度であるCODE(Chain of Diffusion Embeddings)を提案する。
エネルギー的およびトポロジ的視点を組み合わせた統合評価フレームワークであるCONFIDEを提案する。
データ駆動の埋め込みと理論的な洞察を組み合わせることで、CODEとConFIDEは、幅広い生体分子システムで既存の指標より優れています。
論文 参考訳(メタデータ) (2025-11-20T03:38:46Z) - Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。
ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。
MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文 参考訳(メタデータ) (2025-11-19T20:11:49Z) - Evaluating the Ability of Large Language Models to Identify Adherence to CONSORT Reporting Guidelines in Randomized Controlled Trials: A Methodological Evaluation Study [7.142913983218931]
本研究は,現代LPMの精度と信頼性を評価することを目的とした。
各種医療専門分野にまたがる150個のRCTの黄金標準データセットを構築した。
トップパフォーマンスモデルであるGemini-2.5-FlashとDeepSeek-R1は、それぞれ0.280と0.282のコーエンのカッパ係数の0.634とほぼ同じマクロF1スコアを達成した。
論文 参考訳(メタデータ) (2025-11-17T08:05:15Z) - Assessing the Feasibility of Early Cancer Detection Using Routine Laboratory Data: An Evaluation of Machine Learning Approaches on an Imbalanced Dataset [0.02030567625639093]
犬における早期がん検出のためのアクセス可能なスクリーニングツールの開発は、獣医学における重要な課題である。
本研究は,Golden Retriever Lifetime Studyコホートを用いたがんリスク分類の可能性を評価する。
通常の検査データには統計的に検出可能ながんシグナルが存在するが、正常な老化やその他の炎症状態から臨床的に信頼性の高い識別を行うには弱く、確立されていないと結論付けている。
論文 参考訳(メタデータ) (2025-10-23T04:52:42Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - Uncertainty-Aware Genomic Classification of Alzheimer's Disease: A Transformer-Based Ensemble Approach with Monte Carlo Dropout [0.0]
アルツハイマー病(英語版) (AD) は遺伝学的に複雑であり、ゲノムデータも複雑である。
我々はモンテカルロ・ドロップアウトを用いた変圧器を用いたアンサンブルモデル(TrUENet)を開発した。
論文 参考訳(メタデータ) (2025-05-31T18:20:49Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。