論文の概要: A large language model for predicting T cell receptor-antigen binding specificity
- arxiv url: http://arxiv.org/abs/2406.16995v1
- Date: Mon, 24 Jun 2024 08:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:50:40.685966
- Title: A large language model for predicting T cell receptor-antigen binding specificity
- Title(参考訳): T細胞レセプター-抗原結合特異性予測のための大規模言語モデル
- Authors: Xing Fang, Chenpeng Yu, Shiye Tian, Hui Liu,
- Abstract要約: 本稿では,モデル一般化の限界を克服するMasked Language Model (MLM)を提案する。
具体的には、ランダムにシーケンスセグメントをマスキングし、tcrLMをトレーニングしてマスクセグメントを推論し、TCRシーケンスから表現的特徴を抽出する。
実験の結果,tcrLM は独立テストセットと外部検証セットで 0.937 と 0.933 の AUC 値を達成できた。
- 参考スコア(独自算出の注目度): 4.120928123714289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The human immune response depends on the binding of T-cell receptors (TCRs) to antigens (pTCR), which elicits the T cells to eliminate viruses, tumor cells, and other pathogens. The ability of human immunity system responding to unknown viruses and bacteria stems from the TCR diversity. However, this vast diversity poses challenges on the TCR-antigen binding prediction methods. In this study, we propose a Masked Language Model (MLM), referred to as tcrLM, to overcome limitations in model generalization. Specifically, we randomly masked sequence segments and train tcrLM to infer the masked segment, thereby extract expressive feature from TCR sequences. Meanwhile, we introduced virtual adversarial training techniques to enhance the model's robustness. We built the largest TCR CDR3 sequence dataset to date (comprising 2,277,773,840 residuals), and pre-trained tcrLM on this dataset. Our extensive experimental results demonstrate that tcrLM achieved AUC values of 0.937 and 0.933 on independent test sets and external validation sets, respectively, which remarkably outperformed four previously published prediction methods. On a large-scale COVID-19 pTCR binding test set, our method outperforms the current state-of-the-art method by at least 8%, highlighting the generalizability of our method. Furthermore, we validated that our approach effectively predicts immunotherapy response and clinical outcomes on a clinical cohorts. These findings clearly indicate that tcrLM exhibits significant potential in predicting antigenic immunogenicity.
- Abstract(参考訳): ヒトの免疫応答はT細胞受容体(TCR)と抗原(pTCR)との結合に依存し、ウイルス、腫瘍細胞、その他の病原体を除去するためにT細胞を誘導する。
未知のウイルスやバクテリアに応答するヒト免疫系の能力は、TCRの多様性に起因している。
しかし、この膨大な多様性はTCR-抗原結合予測法に課題をもたらす。
本研究では,モデル一般化の限界を克服するために, tcrLM と呼ばれるMasked Language Model (MLM) を提案する。
具体的には、ランダムにシーケンスセグメントをマスキングし、tcrLMをトレーニングしてマスクセグメントを推論し、TCRシーケンスから表現的特徴を抽出する。
一方,モデルのロバスト性を高めるために,仮想対角訓練手法を導入した。
現在までに最大のTCR CDR3シークエンスデータセット(2,277,773,840残量)を構築し、このデータセット上で事前訓練したtcrLMを作成しました。
実験の結果,tcrLM は独立テストセットと外部検証セットで 0.937 と 0.933 の AUC 値を達成した。
大規模なCOVID-19 pTCR結合テストセットにおいて,本手法は最先端手法を少なくとも8%上回る性能を示し,本手法の一般化性を強調した。
さらに,臨床コホートに対する免疫療法の効果と臨床効果を効果的に予測できることを検証した。
以上より,tcrLMは抗原性免疫原性予測に有意な可能性を示唆した。
関連論文リスト
- DapPep: Domain Adaptive Peptide-agnostic Learning for Universal T-cell Receptor-antigen Binding Affinity Prediction [38.358558338444624]
本稿では,TCR-抗原結合親和性予測のためのドメイン適応型ペプチド非依存的学習フレームワークDapPepを紹介する。
DapPepは既存のツールを一貫して上回り、堅牢な一般化能力を示している。
腫瘍新生抗原療法における反応性T細胞の選別や、3D構造における重要な位置の同定など、難しい臨床課題に有効である。
論文 参考訳(メタデータ) (2024-11-26T18:06:42Z) - TopoTxR: A topology-guided deep convolutional network for breast parenchyma learning on DCE-MRIs [49.69047720285225]
そこで本研究では,乳房側葉構造をよりよく近似するために,マルチスケールのトポロジ構造を明示的に抽出する新しいトポロジカルアプローチを提案する。
VICTREファントム乳房データセットを用いてemphTopoTxRを実験的に検証した。
本研究の質的および定量的分析は,乳房組織における画像診断におけるトポロジカルな挙動を示唆するものである。
論文 参考訳(メタデータ) (2024-11-05T19:35:10Z) - TCR-GPT: Integrating Autoregressive Model and Reinforcement Learning for T-Cell Receptor Repertoires Generation [6.920411338236452]
T細胞受容体(TCR)は、感染またはがん細胞によって提示される特定の抗原を認識し、結合することによって免疫系において重要な役割を担っている。
自動回帰変換器のような言語モデルは、TCRレパートリーの確率分布を学習することで強力な解を提供する。
本稿では,デコーダのみのトランスアーキテクチャ上に構築された確率モデルTCR-GPTを紹介する。
論文 参考訳(メタデータ) (2024-08-02T10:16:28Z) - Using Multiparametric MRI with Optimized Synthetic Correlated Diffusion Imaging to Enhance Breast Cancer Pathologic Complete Response Prediction [71.91773485443125]
ネオアジュバント化学療法は乳癌の治療戦略として最近人気を集めている。
ネオアジュバント化学療法を推奨する現在のプロセスは、医療専門家の主観的評価に依存している。
本研究は, 乳癌の病理組織学的完全反応予測に最適化されたCDI$s$を応用することを検討した。
論文 参考訳(メタデータ) (2024-05-13T15:40:56Z) - T Cell Receptor Protein Sequences and Sparse Coding: A Novel Approach to
Cancer Classification [4.824821328103934]
T細胞受容体(TCR)は、適応免疫系に必須のタンパク質である。
近年のシークエンシング技術の進歩により、TCRレパートリーの包括的なプロファイリングが可能になった。
これにより、強力な抗がん活性を持つTCRの発見とTCRベースの免疫療法の開発につながった。
論文 参考訳(メタデータ) (2023-04-25T20:43:41Z) - T-Cell Receptor Optimization with Reinforcement Learning and Mutation
Policies for Precesion Immunotherapy [21.004878412411053]
T細胞受容体(TCR)は、T細胞の表面にあるタンパク質複合体であり、ペプチドに結合することができる。
このプロセスはTCR認識と呼ばれ、免疫応答の重要なステップを構成する。
本稿では、強化学習問題として最適化されたTCRの探索を定式化し、突然変異ポリシーを備えたフレームワークTCRPPOを提案する。
論文 参考訳(メタデータ) (2023-03-02T20:25:14Z) - Exploiting segmentation labels and representation learning to forecast
therapy response of PDAC patients [60.78505216352878]
化学療法に対する腫瘍反応を予測するためのハイブリッドディープニューラルネットワークパイプラインを提案する。
セグメンテーションから分類への表現伝達の組み合わせと、ローカライゼーションと表現学習を利用する。
提案手法は, 合計477個のデータセットを用いて, ROC-AUC 63.7% の処理応答を予測できる, 極めて効率的な手法である。
論文 参考訳(メタデータ) (2022-11-08T11:50:31Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Attention-aware contrastive learning for predicting T cell
receptor-antigen binding specificity [7.365824008999903]
細胞表面のMHCクラスI分子によって提示される新規抗原のごく一部のみがT細胞を誘導できることが確認されている。
そこで本研究では,TCR-抗原結合特異性を推定するためのattentive-mask contrastive learning model,ATMTCRを提案する。
論文 参考訳(メタデータ) (2022-05-17T10:53:32Z) - MIA-Prognosis: A Deep Learning Framework to Predict Therapy Response [58.0291320452122]
本稿では,患者の予後と治療反応を予測するための統合型深層学習手法を提案する。
我々は,マルチモーダル非同期時系列分類タスクとして,確率モデリングを定式化する。
我々の予測モデルは、長期生存の観点から、低リスク、高リスクの患者をさらに階層化する可能性がある。
論文 参考訳(メタデータ) (2020-10-08T15:30:17Z) - Confidence-guided Lesion Mask-based Simultaneous Synthesis of Anatomic
and Molecular MR Images in Patients with Post-treatment Malignant Gliomas [65.64363834322333]
信頼性ガイドSAMR(CG-SAMR)は、病変情報からマルチモーダル解剖学的配列にデータを合成する。
モジュールは中間結果に対する信頼度測定に基づいて合成をガイドする。
実際の臨床データを用いた実験により,提案モデルが最先端の合成法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-06T20:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。