論文の概要: ProtiGeno: a prokaryotic short gene finder using protein language models
- arxiv url: http://arxiv.org/abs/2307.10343v1
- Date: Wed, 19 Jul 2023 16:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 16:09:16.154010
- Title: ProtiGeno: a prokaryotic short gene finder using protein language models
- Title(参考訳): ProtiGeno : タンパク質言語モデルを用いたプロカリアティックショート遺伝子ファインダー
- Authors: Tony Tu, Gautham Krishna, Amirali Aghazadeh
- Abstract要約: 現在の遺伝子発見者は長い遺伝子を見つけることに非常に敏感であるが、その感度は短い遺伝子を見つける際に顕著に低下する。
我々はProtiGenoと呼ばれる深層学習に基づく手法を開発し、特に短いプロカリアティック遺伝子を標的とした。
4,288個のプロカリーゼゲノムの系統的大規模実験において、ProtiGenoは、現在の最先端遺伝子ファインダーよりも高精度で短いコードと非コード遺伝子を予測できることを実証した。
- 参考スコア(独自算出の注目度): 1.2354076490479513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prokaryotic gene prediction plays an important role in understanding the
biology of organisms and their function with applications in medicine and
biotechnology. Although the current gene finders are highly sensitive in
finding long genes, their sensitivity decreases noticeably in finding shorter
genes (<180 nts). The culprit is insufficient annotated gene data to identify
distinguishing features in short open reading frames (ORFs). We develop a deep
learning-based method called ProtiGeno, specifically targeting short
prokaryotic genes using a protein language model trained on millions of evolved
proteins. In systematic large-scale experiments on 4,288 prokaryotic genomes,
we demonstrate that ProtiGeno predicts short coding and noncoding genes with
higher accuracy and recall than the current state-of-the-art gene finders. We
discuss the predictive features of ProtiGeno and possible limitations by
visualizing the three-dimensional structure of the predicted short genes. Data,
codes, and models are available at https://github.com/tonytu16/protigeno.
- Abstract(参考訳): プロカリオティック遺伝子予測は、生物の生物学とその機能を理解する上で重要な役割を担っている。
現在の遺伝子発見者は長い遺伝子の発見に非常に敏感であるが、その感度は短い遺伝子の発見において顕著に低下する(180 nts)。
犯人は、短いオープンリーディングフレーム(ORF)の識別特徴を特定するために、アノテーション付き遺伝子データが不十分である。
我々はProtiGenoと呼ばれる深層学習に基づく手法を開発し、何百万もの進化したタンパク質で訓練されたタンパク質言語モデルを用いて、短いプロカリアティック遺伝子を特にターゲットとした。
4,288個のプロカリーゼゲノムの系統的大規模実験において、ProtiGenoは、現在の最先端遺伝子ファインダーよりも高精度で短いコーディングおよび非コーディング遺伝子を予測する。
予測された短い遺伝子の3次元構造を可視化することにより,プロティゲノの予測的特徴と限界について考察する。
データ、コード、モデルはhttps://github.com/tonytu16/protigenoで入手できる。
関連論文リスト
- Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Evaluation of large language models for discovery of gene set function [0.8864741602534821]
5つの大規模言語モデル (LLM) を, 遺伝子セットで表される共通の生物学的機能を発見する能力について評価した。
遺伝子オントロジーの標準遺伝子セットに対するベンチマークでは、GPT-4はキュレートされた名前やより一般的な概念を確実に回収した。
オミクスデータから得られた遺伝子セットでは、GPT-4は古典的な機能強化によって報告されていない新しい機能を同定した。
論文 参考訳(メタデータ) (2023-09-07T21:10:48Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features
Learning from a Language Model [3.0643865202019698]
本稿では、ゲノムのアクセス可能な領域を特定するためのSemanticCAPという新しいソリューションを提案する。
遺伝子配列のコンテキストをモデル化する遺伝子モデルを導入し、遺伝子配列の効果的な表現を提供する。
公開ベンチマークによる他のシステムと比較すると,我々のモデルは性能が向上することが判明した。
論文 参考訳(メタデータ) (2022-04-05T11:47:58Z) - Feature extraction using Spectral Clustering for Gene Function
Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。
提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-03-25T10:17:36Z) - Feature reduction for machine learning on molecular features: The
GeneScore [58.720142291102135]
GeneScoreは、バイオメディカルデータの機械学習分析のための機能削減の概念です。
GeneScoreは癌実体の分類において二項行列よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-14T10:58:39Z) - SimpleChrome: Encoding of Combinatorial Effects for Predicting Gene
Expression [8.326669256957352]
遺伝子のヒストン修飾表現を学習するディープラーニングモデルであるSimpleChromeを紹介します。
このモデルから得られた特徴により、遺伝子間相互作用の潜在効果と標的遺伝子の発現に対する直接遺伝子調節をよりよく理解することができます。
論文 参考訳(メタデータ) (2020-12-15T23:30:36Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z) - ProGen: Language Modeling for Protein Generation [47.32931317203297]
タンパク質工学のための生成モデリングは、合成生物学、医学、物質科学における根本的な問題を解決する鍵となる。
コストのかかる構造アノテーションが欠如しているタンパク質の指数関数的に増加する集合を活用するために、タンパク質工学を教師なしシーケンス生成問題として採用する。
論文 参考訳(メタデータ) (2020-03-08T04:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。