論文の概要: DNAZEN: Enhanced Gene Sequence Representations via Mixed Granularities of Coding Units
- arxiv url: http://arxiv.org/abs/2505.02206v1
- Date: Sun, 04 May 2025 18:02:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.483166
- Title: DNAZEN: Enhanced Gene Sequence Representations via Mixed Granularities of Coding Units
- Title(参考訳): DNAZEN: コードユニットの混合粒度による遺伝子配列発現の増強
- Authors: Lei Mao, Yuanhe Tian, Yan Song,
- Abstract要約: ゲノムモデリングは、伝統的に遺伝子配列を言語として扱い、その構造的モチーフと言語単位や組織原理に類似した長距離依存を反映している。
遺伝子配列の様々な粒度から学習するための改良されたゲノム表現フレームワークであるDNAZENを提案する。
トランスフォーマーベースのG-gramエンコーダも提案され、一致したG-gramを入力して表現を計算し、基本単位のエンコーダに統合する。
- 参考スコア(独自算出の注目度): 18.113659670915474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genome modeling conventionally treats gene sequence as a language, reflecting its structured motifs and long-range dependencies analogous to linguistic units and organization principles such as words and syntax. Recent studies utilize advanced neural networks, ranging from convolutional and recurrent models to Transformer-based models, to capture contextual information of gene sequence, with the primary goal of obtaining effective gene sequence representations and thus enhance the models' understanding of various running gene samples. However, these approaches often directly apply language modeling techniques to gene sequences and do not fully consider the intrinsic information organization in them, where they do not consider how units at different granularities contribute to representation. In this paper, we propose DNAZEN, an enhanced genomic representation framework designed to learn from various granularities in gene sequences, including small polymers and G-grams that are combinations of several contiguous polymers. Specifically, we extract the G-grams from large-scale genomic corpora through an unsupervised approach to construct the G-gram vocabulary, which is used to provide G-grams in the learning process of DNA sequences through dynamically matching from running gene samples. A Transformer-based G-gram encoder is also proposed and the matched G-grams are fed into it to compute their representations and integrated into the encoder for basic unit (E4BU), which is responsible for encoding small units and maintaining the learning and inference process. To further enhance the learning process, we propose whole G-gram masking to train DNAZEN, where the model largely favors the selection of each entire G-gram to mask rather than an ordinary masking mechanism performed on basic units. Experiments on benchmark datasets demonstrate the effectiveness of DNAZEN on various downstream tasks.
- Abstract(参考訳): ゲノムモデリングは、伝統的に遺伝子配列を言語として扱い、その構造的モチーフと言語単位に類似した長距離依存と、単語や構文などの組織原理を反映している。
近年の研究では、畳み込みモデルやリカレントモデルからトランスフォーマーモデルに至るまでの高度なニューラルネットワークを用いて、遺伝子配列のコンテキスト情報をキャプチャし、効果的な遺伝子配列表現を得ることを第一目標とし、様々な実行中の遺伝子サンプルに対するモデルの理解を強化することを目指している。
しかし、これらの手法は、しばしば言語モデリング技術を遺伝子配列に直接適用し、その内在的な情報構造を完全には考慮していない。
本稿では, 遺伝子配列の様々な粒度から学習するためのDNAZENを提案する。
具体的には,G-gram を大規模ゲノムコーパスから抽出し,G-gram vocabulary の構築を行う。
変換器をベースとしたG-gramエンコーダも提案され, 一致したG-gramを入力して表現を計算し, 小単位のエンコーダ(E4BU)に統合する。
学習過程をさらに強化するため,DNAZENを訓練するためのG-gramマスクを提案する。
ベンチマークデータセットの実験では、様々な下流タスクにおけるDNAZENの有効性が示されている。
関連論文リスト
- A Novel Graph Transformer Framework for Gene Regulatory Network Inference [0.27624021966289597]
遺伝子制御ネットワーク(GRN)の推測は、必ずしも真の生物学的相互作用を反映するとは限らない。
ほとんどのGRN推論手法は、ネットワーク再構築フェーズにおいていくつかの課題に直面している。
生データから直接遺伝子発現パターンをキャプチャするために,オートエンコーダの埋め込みを用いる。
GRN構造からの事前の知識を埋め込み、それらをテキストのような表現に変換する。
論文 参考訳(メタデータ) (2025-04-23T06:24:26Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [59.60208063956459]
大規模言語モデル(LLM)は、効果的なアライメントのために高品質な命令データを必要とする。
本稿では,大規模かつ高品質な符号化命令を合成するスケーラブルなアルゴリズムであるGenematic-Instructを提案する。
論文 参考訳(メタデータ) (2024-07-29T20:42:59Z) - Gene Regulatory Network Inference from Pre-trained Single-Cell Transcriptomics Transformer with Joint Graph Learning [10.44434676119443]
単一細胞RNAシークエンシング(scRNA-seq)データから遺伝子制御ネットワーク(GRN)を推定することは複雑である。
本研究では,単一セルBERTを用いた事前学習型トランスモデル(scBERT)を活用することで,この問題に対処する。
本稿では,単一セル言語モデルによって学習されたリッチな文脈表現と,GRNで符号化された構造化知識を組み合わせた,新しい共同グラフ学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T16:42:08Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - SGC: A semi-supervised pipeline for gene clustering using self-training
approach in gene co-expression networks [3.8073142980733]
本稿では,スペクトルネットワーク理論の数学に基づく遺伝子クラスタリングのための新しいパイプラインを提案する。
SGCは、教師なしの方法で高度に強化されたモジュールの計算を可能にする複数の新しいステップで構成されている。
実データにおいて,SGCが高密度化をもたらすことを示す。
論文 参考訳(メタデータ) (2022-09-21T14:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。