Fugu-MT 論文翻訳(概要): ProtiGeno: a prokaryotic short gene finder using protein language models

論文の概要: ProtiGeno: a prokaryotic short gene finder using protein language models

arxiv url: http://arxiv.org/abs/2307.10343v1
Date: Wed, 19 Jul 2023 16:46:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 16:09:16.154010
Title: ProtiGeno: a prokaryotic short gene finder using protein language models
Title（参考訳）: ProtiGeno : タンパク質言語モデルを用いたプロカリアティックショート遺伝子ファインダー
Authors: Tony Tu, Gautham Krishna, Amirali Aghazadeh
Abstract要約: 現在の遺伝子発見者は長い遺伝子を見つけることに非常に敏感であるが、その感度は短い遺伝子を見つける際に顕著に低下する。我々はProtiGenoと呼ばれる深層学習に基づく手法を開発し、特に短いプロカリアティック遺伝子を標的とした。 4,288個のプロカリーゼゲノムの系統的大規模実験において、ProtiGenoは、現在の最先端遺伝子ファインダーよりも高精度で短いコードと非コード遺伝子を予測できることを実証した。
参考スコア（独自算出の注目度）: 1.2354076490479513
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prokaryotic gene prediction plays an important role in understanding the biology of organisms and their function with applications in medicine and biotechnology. Although the current gene finders are highly sensitive in finding long genes, their sensitivity decreases noticeably in finding shorter genes (<180 nts). The culprit is insufficient annotated gene data to identify distinguishing features in short open reading frames (ORFs). We develop a deep learning-based method called ProtiGeno, specifically targeting short prokaryotic genes using a protein language model trained on millions of evolved proteins. In systematic large-scale experiments on 4,288 prokaryotic genomes, we demonstrate that ProtiGeno predicts short coding and noncoding genes with higher accuracy and recall than the current state-of-the-art gene finders. We discuss the predictive features of ProtiGeno and possible limitations by visualizing the three-dimensional structure of the predicted short genes. Data, codes, and models are available at https://github.com/tonytu16/protigeno.
Abstract（参考訳）: プロカリオティック遺伝子予測は、生物の生物学とその機能を理解する上で重要な役割を担っている。現在の遺伝子発見者は長い遺伝子の発見に非常に敏感であるが、その感度は短い遺伝子の発見において顕著に低下する(180 nts)。犯人は、短いオープンリーディングフレーム(ORF)の識別特徴を特定するために、アノテーション付き遺伝子データが不十分である。我々はProtiGenoと呼ばれる深層学習に基づく手法を開発し、何百万もの進化したタンパク質で訓練されたタンパク質言語モデルを用いて、短いプロカリアティック遺伝子を特にターゲットとした。 4,288個のプロカリーゼゲノムの系統的大規模実験において、ProtiGenoは、現在の最先端遺伝子ファインダーよりも高精度で短いコーディングおよび非コーディング遺伝子を予測する。予測された短い遺伝子の3次元構造を可視化することにより,プロティゲノの予測的特徴と限界について考察する。データ、コード、モデルはhttps://github.com/tonytu16/protigenoで入手できる。

関連論文リスト

GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
Learning to Discover Regulatory Elements for Gene Expression Prediction [59.470991831978516]
Seq2Expは、ターゲット遺伝子発現を駆動する制御要素を発見し、抽出するために設計されたSequence to Expressionネットワークである。本手法は, エピジェノミックシグナル, DNA 配列とその関連因子の因果関係を捉える。
論文参考訳（メタデータ） (2025-02-19T03:25:49Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
G2PDiffusion: Cross-Species Genotype-to-Phenotype Prediction via Evolutionary Diffusion [108.94237816552024]
本稿では,DNAから形態像を生成する最初の遺伝子型対フェノタイプ拡散モデル(G2PDiffusion)を提案する。本モデルは,1)保存および共進化パターンを識別するMSA検索エンジン,2)複雑なジェノタイプ-環境相互作用を効果的にモデル化する環境対応MSA条件エンコーダ,3)遺伝子型-フェノタイプ整合性を改善する適応型表現的アライメントモジュールを含む。
論文参考訳（メタデータ） (2025-02-07T06:16:31Z)
GeneQuery: A General QA-based Framework for Spatial Gene Expression Predictions from Histology Images [41.732831871866516]
全スライディングヘマトキシリンとエオシン染色組織像は容易にアクセスでき、顕微鏡レベルで組織構造と組成を詳細に調べることができる。近年の進歩は、これらの組織像を利用して、空間的に解決された遺伝子発現プロファイルを予測している。 GeneQueryは、この遺伝子発現予測タスクを質問応答(QA)方式で解決し、より汎用性と柔軟性を向上させることを目的としている。
論文参考訳（メタデータ） (2024-11-27T14:33:13Z)
An Evolutional Neural Network Framework for Classification of Microarray Data [0.0]
本研究の目的は,遺伝的アルゴリズムとニューラルネットワークのハイブリッドモデルを用いて,情報的遺伝子のサブセット選択において問題を克服することである。実験の結果,提案手法は,他の機械学習アルゴリズムと比較して,高い精度と最小数の選択遺伝子が示唆された。
論文参考訳（メタデータ） (2024-11-20T13:48:40Z)
Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。 BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。 BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文参考訳（メタデータ） (2024-06-05T06:42:27Z)
BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。 BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。 6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文参考訳（メタデータ） (2024-05-27T19:57:17Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity [3.972930262155919]
本研究では、遺伝子ベクター化のための既存の大規模モデルを利用して、微生物ゲノム配列全体から生息地特異性を予測する枠組みを提案する。我々は、異なる生息地から得られた高品質のマイクロバイオームゲノムの大規模なデータセット上で、我々のアプローチを訓練し、検証する。
論文参考訳（メタデータ） (2024-05-09T09:34:51Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
Machine Learning Methods for Cancer Classification Using Gene Expression Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。遺伝子発現は癌の早期発見において基本的な役割を担っている。本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文参考訳（メタデータ） (2023-01-28T15:03:03Z)
SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features Learning from a Language Model [3.0643865202019698]
本稿では、ゲノムのアクセス可能な領域を特定するためのSemanticCAPという新しいソリューションを提案する。遺伝子配列のコンテキストをモデル化する遺伝子モデルを導入し、遺伝子配列の効果的な表現を提供する。公開ベンチマークによる他のシステムと比較すると,我々のモデルは性能が向上することが判明した。
論文参考訳（メタデータ） (2022-04-05T11:47:58Z)
Feature extraction using Spectral Clustering for Gene Function Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文参考訳（メタデータ） (2022-03-25T10:17:36Z)
SimpleChrome: Encoding of Combinatorial Effects for Predicting Gene Expression [8.326669256957352]
遺伝子のヒストン修飾表現を学習するディープラーニングモデルであるSimpleChromeを紹介します。このモデルから得られた特徴により、遺伝子間相互作用の潜在効果と標的遺伝子の発現に対する直接遺伝子調節をよりよく理解することができます。
論文参考訳（メタデータ） (2020-12-15T23:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。