論文の概要: Horizon-wise Learning Paradigm Promotes Gene Splicing Identification
- arxiv url: http://arxiv.org/abs/2406.11900v1
- Date: Sat, 15 Jun 2024 08:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:55:56.842675
- Title: Horizon-wise Learning Paradigm Promotes Gene Splicing Identification
- Title(参考訳): 水平学習パラダイムは遺伝子スプライシング同定を促進する
- Authors: Qi-Jie Li, Qian Sun, Shao-Qun Zhang,
- Abstract要約: 本稿では,Horizon-wise Gene Splicing Identification (H-GSI) という遺伝子スプライシング識別作業のための新しいフレームワークを提案する。
提案するH-GSIは,文字列データをテンソルに変換する前処理手順,長いシーケンスを扱うスライディングウインドウ手法,SeqLabモデル,予測器の4つのコンポーネントから構成される。
切断された固定長配列で遺伝子情報を処理している既存の研究とは対照的に、H-GSIは1つの前方計算でシーケンス内の全ての位置を予測する水平方向同定パラダイムを採用している。
- 参考スコア(独自算出の注目度): 6.225959701339916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying gene splicing is a core and significant task confronted in modern collaboration between artificial intelligence and bioinformatics. Past decades have witnessed great efforts on this concern, such as the bio-plausible splicing pattern AT-CG and the famous SpliceAI. In this paper, we propose a novel framework for the task of gene splicing identification, named Horizon-wise Gene Splicing Identification (H-GSI). The proposed H-GSI follows the horizon-wise identification paradigm and comprises four components: the pre-processing procedure transforming string data into tensors, the sliding window technique handling long sequences, the SeqLab model, and the predictor. In contrast to existing studies that process gene information with a truncated fixed-length sequence, H-GSI employs a horizon-wise identification paradigm in which all positions in a sequence are predicted with only one forward computation, improving accuracy and efficiency. The experiments conducted on the real-world Human dataset show that our proposed H-GSI outperforms SpliceAI and achieves the best accuracy of 97.20\%. The source code is available from this link.
- Abstract(参考訳): 遺伝子スプライシングの同定は、人工知能とバイオインフォマティクスの現代的コラボレーションにおいて直面する、中核的で重要な課題である。
過去数十年間、生物工学的なスプライシングパターンAT-CGや有名なSpliceAIなど、この懸念に対する大きな取り組みを目撃してきた。
本稿では,Horizon-wise Gene Splicing Identification (H-GSI) と呼ばれる遺伝子スプライシング識別作業のための新しいフレームワークを提案する。
提案するH-GSIは,文字列データをテンソルに変換する前処理手順,長いシーケンスを扱うスライディングウインドウ手法,SeqLabモデル,予測器の4つのコンポーネントから構成される。
切り離された固定長配列で遺伝子情報を処理している既存の研究とは対照的に、H-GSIは、配列内の全ての位置を1つの前方計算で予測し、精度と効率を向上する水平方向同定パラダイムを採用している。
実世界のHumanデータセットを用いて行った実験は、提案したH-GSIがSpliceAIを上回り、97.20\%の精度を達成することを示した。
ソースコードはこのリンクから入手できる。
関連論文リスト
- GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians [13.837406082703756]
我々は、遺伝子発現データの自動探索のためのベンチマークデータセットであるGenoTEXを紹介する。
GenoTEXは、幅広い遺伝子識別問題を解決するための注釈付きコードと結果を提供する。
我々は、文脈対応計画、反復的修正、ドメインエキスパートコンサルティングを設計したLLMベースのエージェントチームであるGenoAgentsを紹介する。
論文 参考訳(メタデータ) (2024-06-21T17:55:24Z) - Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Histo-Genomic Knowledge Distillation For Cancer Prognosis From Histopathology Whole Slide Images [7.5123289730388825]
ゲノムインフォームドハイパーアテンションネットワーク(G-HANet)は、トレーニング中にヒストリーゲノム知識を効果的に蒸留することができる。
ネットワークは、クロスモーダル・アソシエーション・ブランチ(CAB)とハイパーアテンション・サバイバル・ブランチ(HSB)から構成される。
論文 参考訳(メタデータ) (2024-03-15T06:20:09Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - DNA Sequence Classification with Compressors [0.0]
本研究は,DNA配列解析に適した圧縮機を用いたパラメータフリー分類法を新たに導入する。
この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2024-01-25T09:17:19Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - Cancer-inspired Genomics Mapper Model for the Generation of Synthetic
DNA Sequences with Desired Genomics Signatures [0.0]
がんに触発されたゲノムマッパーモデル(CGMM)は、遺伝的アルゴリズム(GA)とディープラーニング(DL)の手法を組み合わせたものである。
我々はCGMMが、祖先や癌などの選択された表現型の合成ゲノムを生成できることを実証した。
論文 参考訳(メタデータ) (2023-05-01T07:16:40Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。