論文の概要: Better Protein Function Prediction by Modeling Survivorship Bias
- arxiv url: http://arxiv.org/abs/2605.06879v1
- Date: Thu, 07 May 2026 19:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.578774
- Title: Better Protein Function Prediction by Modeling Survivorship Bias
- Title(参考訳): 生存バイアスのモデル化によるタンパク質機能予測
- Authors: Zhongmou Chao, Poompol Buathong, Ekaterina Selivanovitch, Susan Daniel, Peter I. Frazier,
- Abstract要約: Evo-PUは、ヌクレオチド変異の科学的理解を用いて、単一微生物配列データに対する生存バイアスをモデル化する学習フレームワークである。
Evo-PUは、単一有機体の一様被覆監視データを用いた3つの予測タスクにおいて、標準PU学習、一級分類、タンパク質言語モデルより優れている。
- 参考スコア(独自算出の注目度): 4.101866024329502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein sequence data from nature exhibits survivorship bias: we only observe data from those organisms that survive and reproduce, while non-functional protein mutations are eliminated by natural selection. Thus, predicting whether a protein sequence is functional often requires learning from positive examples alone. While positive-unlabeled (PU) learning frameworks offer a generic solution to this problem, existing PU methods ignore the evolutionary processes that shape sequence observability and cause survivorship bias. Consider a sequence that is one mutation away from a commonly-observed protein variant in a well-surveilled organism. If the sequence were functional, it would likely be observed. If it is not observed, this suggests non-functionality. In contrast, sequences that are unlikely to arise through mutation may be missing simply because they never arose. Thus, these two kinds of missing sequences should be treated differently when training models. In this work, we propose Evo-PU, a PU learning framework that uses a scientific understanding of nucleotide mutation to model survivorship bias for well-surveilled single-organism sequence data. On three prediction tasks using single-organism uniform-coverage surveillance data -- predicting results from held-out influenza and respiratory syncytial virus (RSV) mutagenesis studies, and predicting future SARS-CoV-2 variants -- Evo-PU outperforms standard PU learning, one-class classification (OCC), and protein language models (PLMs). On prediction tasks from multi-organism ProteinGym datasets with more heterogeneous surveillance coverage, we identify opportunities to generalize our approach.
- Abstract(参考訳): 自然界からのタンパク質配列のデータは生存バイアスを示し、我々は生き残り、繁殖する生物のデータのみを観察し、非機能的なタンパク質変異は自然選択によって排除される。
したがって、タンパク質配列が機能的であるかどうかを予測するには、正の例だけで学ぶ必要がある。
PU学習フレームワークは、この問題に対する一般的な解決策を提供するが、既存のPUメソッドは、シーケンスオブザーバビリティを形成し、生存バイアスを引き起こす進化過程を無視している。
よく観察された生物において一般的に観察されるタンパク質の変異から1つの突然変異である配列を考える。
もしその配列が機能していたら、おそらく観察されるだろう。
観察されない場合、これは非機能性を意味する。
対照的に、突然変異によって生じる可能性が低い配列は、単に発生しないために欠落する可能性がある。
したがって、これらの2種類の欠落シーケンスは、トレーニングモデルで異なる扱いをすべきである。
本研究では,ヌクレオチド変異を科学的に理解したPU学習フレームワークであるEvo-PUを提案する。
単一微生物の均一被覆監視データを用いた3つの予測タスク -- 保留中のインフルエンザおよび呼吸性シンチタールウイルス(RSV)変異の予測結果と、将来のSARS-CoV-2変異体の予測 -- Evo-PUは、標準PU学習、一級分類(OCC)、タンパク質言語モデル(PLM)より優れている。
より異種な監視対象を持つ多生物のProteinGymデータセットからの予測タスクについて,我々のアプローチを一般化する機会を特定した。
関連論文リスト
- Departures: Distributional Transport for Single-Cell Perturbation Prediction with Neural Schrödinger Bridges [51.83259180910313]
遺伝子機能解析における大きなボトルネックは、単細胞データの未成熟の性質である。
我々は、SB(Schrdinger Bridge)を近似して、単セル摂動データに対処する。
本モデルは,異種単一セル応答を効果的に捉え,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T08:27:13Z) - Boosting In-Silicon Directed Evolution with Fine-Tuned Protein Language Model and Tree Search [67.15159962819979]
大規模言語モデルの革新的パラダイムを活用することにより,タンパク質配列を最適化する新しいフレームワークであるAlphaDEを提案する。
第一に、AlphaDEファインチューンは、タンパク質配列のマスク言語モデルを用いて、関心のあるタンパク質クラスの進化的妥当性を活性化するタンパク質言語モデルである。
第二に、AlphaDEはモンテカルロ木探索に基づくテスト時間推論を導入し、微調整されたタンパク質言語モデルからの進化誘導でタンパク質を効果的に進化させる。
論文 参考訳(メタデータ) (2025-11-13T03:00:52Z) - A Diffusion Model to Shrink Proteins While Maintaining Their Function [35.556730321134275]
SCISORは、配列から文字を削除し、自然界で見られるものに似たタンパク質サンプルを生成する新しい離散拡散モデルである。
SCISORは、自然配列にランダムな挿入を追加するフォワードノイズ発生過程を逆転するようにデノイズを訓練する。
評価において、SCISORはProteinGymに対する欠失の機能的効果の最先端の予測を達成している。
論文 参考訳(メタデータ) (2025-11-10T18:46:24Z) - Evaluating DNA function understanding in genomic language models using evolutionarily implausible sequences [0.25489046505746704]
我々はNullsettesというベンチマークを導入し、Siliico Los-of-function(LOF)変異においてモデルがどのように予測できるかを評価する。
殆どの人は強いLOF変異を一貫して検出できない。
全てのモデルでは、元の(不変)配列に割り当てられる確率が減少するにつれて、予測精度が急落する。
論文 参考訳(メタデータ) (2025-06-12T01:28:04Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文 参考訳(メタデータ) (2024-05-16T03:53:21Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Unsupervised language models for disease variant prediction [3.6942566104432886]
広い配列のデータセットで訓練された1つのタンパク質LMは、あらゆる遺伝子変異ゼロショットに対して病原性を評価することができる。
臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると,その評価性能は最先端技術に匹敵することがわかった。
論文 参考訳(メタデータ) (2022-12-07T22:28:13Z) - InForecaster: Forecasting Influenza Hemagglutinin Mutations Through the
Lens of Anomaly Detection [3.5213888068272197]
異常検出(AD)は機械学習(ML)において確立された分野である
我々は,異常検出(AD)によってこの問題に取り組むことを提案する。
公開されている4つのデータセットに対して、多数の実験を行います。
論文 参考訳(メタデータ) (2022-10-25T02:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。