論文の概要: Beyond Expression Similarity: Contrastive Learning Recovers Functional Gene Associations from Protein Interaction Structure
- arxiv url: http://arxiv.org/abs/2603.20955v1
- Date: Sat, 21 Mar 2026 21:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.166697
- Title: Beyond Expression Similarity: Contrastive Learning Recovers Functional Gene Associations from Protein Interaction Structure
- Title(参考訳): 表現類似性を超えて:コントラスト学習はタンパク質相互作用構造から機能的遺伝子関連を回復する
- Authors: Jason Dury,
- Abstract要約: Predictive Associative Memory (PAM)フレームワークは、有用な関係が共有コンテキストで共有されることが多いことを示唆している。
この原理が、タンパク質-結合相互作用が機能的関連をもたらす分子生物学に転移するかどうかを検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Predictive Associative Memory (PAM) framework posits that useful relationships often connect items that co-occur in shared contexts rather than items that appear similar in embedding space. A contrastive MLP trained on co-occurrence annotations--Contrastive Association Learning (CAL)--has improved multi-hop passage retrieval and discovered narrative function at corpus scale in text. We test whether this principle transfers to molecular biology, where protein-protein interactions provide functional associations distinct from gene expression similarity. Four experiments across two biological domains map the operating envelope. On gene perturbation data (Replogle K562 CRISPRi, 2,285 genes), CAL trained on STRING protein interactions achieves cross-boundary AUC of 0.908 where expression similarity scores 0.518. A second gene dataset (DepMap, 17,725 genes) confirms the result after negative sampling correction, reaching cross-boundary AUC of 0.947. Two drug sensitivity experiments produce informative negatives that sharpen boundary conditions. Three cross-domain findings emerge: (1) inductive transfer succeeds in biology--a node-disjoint split with unseen genes yields AUC 0.826 (Delta +0.127)--where it fails in text (+/-0.10), suggesting physically grounded associations are more transferable than contingent co-occurrences; (2) CAL scores anti-correlate with interaction degree (Spearman r = -0.590), with gains concentrating on understudied genes with focused interaction profiles; (3) tighter association quality outperforms larger but noisier training sets, reversing the text pattern. Results are stable across training seeds (SD < 0.001) and cross-boundary threshold choices.
- Abstract(参考訳): Predictive Associative Memory (PAM) フレームワークは、組み込みスペースに類似したアイテムではなく、共有コンテキストで共起するアイテムを、有用な関係で接続する。
コントラッシブ・アソシエーション・ラーニング (CAL) は, マルチホップ・パスの検索を改善し, コーパススケールでの物語機能を発見した。
この原理が分子生物学に転移するかどうかを検証し、タンパク質とタンパク質の相互作用は遺伝子発現の類似性とは異なる機能的関連を提供する。
2つの生物ドメインにわたる4つの実験は、操作エンベロープをマッピングする。
遺伝子摂動データ(Replogle K562 CRISPRi, 2,285遺伝子)では、STRINGタンパク質の相互作用を訓練したCALは、発現類似性スコア0.518の0.908の有界AUCを達成する。
第2の遺伝子データセット(DepMap, 17,725遺伝子)は、負のサンプリング補正を経て、0.947の有界AUCに達する。
2つの薬物感受性実験は境界条件を鋭くする情報陰性を生成する。
AUC 0.826 (Delta +0.127)- テキスト (+/-0.10) で失敗すると、物理的に接地された関連は、一致した共起体よりも伝達しやすく、(2) CALスコアは相互作用の度合い(Spearman r = -0.590)と反相関し、焦点を絞った相互作用プロファイルを持つ下層調査された遺伝子に集中し、(3) より厳密な関連性は、より大きながノイズの多いトレーニングセットより優れ、テキストパターンを逆転させる。
結果は訓練種子 (SD < 0.001) と有界しきい値選択で安定である。
関連論文リスト
- TRIDENT: A Trimodal Cascade Generative Framework for Drug and RNA-Conditioned Cellular Morphology Synthesis [56.9460577864211]
TRIDENTは、摂動と対応する遺伝子発現プロファイルの両方を条件にすることで、現実的な細胞形態を合成するカスケード生成フレームワークである。
TRIDENTは最先端のアプローチよりも優れており、目に見えない化合物への強い一般化で最大7倍の改善を実現している。
論文 参考訳(メタデータ) (2025-11-23T04:43:27Z) - A U-Statistic-based random forest approach for genetic interaction study [5.418369213731247]
本稿では,U-Statistic-based random forest approach(フォレストU-Test)を提案する。
シミュレーション実験により,フォレストUテストは既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-19T06:22:20Z) - Hierarchical Multi-Label Contrastive Learning for Protein-Protein Interaction Prediction Across Organisms [2.399426243085768]
タンパク質間相互作用予測のための階層的コントラストフレームワークであるHIPPOを提案する。
提案手法は、タンパク質の機能クラス間の構造的関係をエミュレートする階層的コントラスト損失関数を含む。
ベンチマークデータセットの実験では、HIPPOが最先端のパフォーマンスを達成し、既存のメソッドを上回り、低データのレシエーションにおいて堅牢性を示すことが示されている。
論文 参考訳(メタデータ) (2025-07-03T15:41:04Z) - Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - Statistical Verification of Linear Classifiers [76.95660509846216]
本研究では,2つの試料間の線形分離性の概念に密接に関連する均一性試験を提案する。
本研究では,2次元試料に適用した場合に,テストのEmphp値の上限値の設定に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-24T11:56:45Z) - CSGDN: Contrastive Signed Graph Diffusion Network for Predicting Crop Gene-phenotype Associations [6.5678927417916455]
我々は、より少ないトレーニングサンプルでロバストなノード表現を学習し、より高いリンク予測精度を実現するために、コントラスト符号付きグラフ拡散ネットワーク(CSGDN)を提案する。
Gossypium hirsutum, Brassica napus, Triticum turgidumの3つの作物データセット上でCSGDNの有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2024-10-10T01:01:10Z) - FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics [46.189419603576084]
FGBERTは、タンパク質に基づく遺伝子表現を文脈認識トークン化剤として利用する、新しいメダゲノミクス事前訓練モデルである。
これは、遺伝子、機能、細菌、環境レベルにまたがる4つのレベルでのメダゲノミクスデータセットに優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-24T13:13:17Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。