論文の概要: DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks
- arxiv url: http://arxiv.org/abs/2307.05628v2
- Date: Mon, 7 Aug 2023 07:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 22:23:15.272913
- Title: DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks
- Title(参考訳): DNAGPT:Versatile DNAシークエンス解析タスクのための汎用事前学習ツール
- Authors: Daoan Zhang, Weitong Zhang, Bing He, Yu Zhao, Jianguo Zhang, Chenchen
Qin, Jianhua Yao
- Abstract要約: GPTは言語配列から一般的な情報を抽出できることが証明されている。
DNA配列解析におけるデータとタスク要求は、生成、予測、回帰といった様々なフォーマットで処理される。
DNAGPTは汎用的なDNA解析タスクを処理でき、同時にシーケンスデータと数値データの両方を処理する。
- 参考スコア(独自算出の注目度): 11.882666636960248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPT has been proven to be capable of extracting general information from
language sequences, thereby benefiting all downstream tasks. This motivates us
to use pre-trained models to explore the hidden inherent information in DNA
sequences. However, data and task requirements in DNA sequence analyses are
tasked in different formats such as generation, prediction and regression, and
are complexity and involve different modalities, such as nucleotides sequences
and, expression levels, etc. Existing BERT-based models are mostly for
generation tasks and use sequence data as input and output, thus cannot easily
handle various DNA analysis tasks in one single model. Herein, we propose a
generalized DNA pre-training DNA model, DNAGPT, that was trained on over 200
billion base pairs from all the mammals. We enhance the classic GPT model by
adding binary classification task (DNA sequence order) and numerical regression
task (guanine-cytosine content prediction) in the pre-training period and
enhancing the architecture with corresponding embedding layers and encoding
heads. We also design a comprehensive token language to encode sequence, number
and task related information in the same token space. Therefore, DNAGPT can
handle versatile DNA analysis tasks and simultaneously process handle both
sequence and numerical data. We have evaluated our model on genomic signals and
regions recognition, pseudo genomes generation and mRNA abudance regression
tasks. We demonstrate that benefiting from pre-training, DNAGPT can shows
superior performance than the existing models specially designed for various
downstreams tasks.
- Abstract(参考訳): GPTは、言語シーケンスから一般的な情報を抽出できることが証明されており、すべての下流タスクの恩恵を受けている。
これは、事前訓練されたモデルを使用して、DNA配列に隠された固有情報を探索する動機となります。
しかし、dna配列解析におけるデータとタスクの要求は、生成、予測、回帰といった異なるフォーマットで処理され、複雑さを持ち、ヌクレオチド配列や発現レベルといった異なるモダリティを伴う。
既存のBERTベースのモデルは、ほとんどの場合生成タスクであり、シーケンスデータを入力および出力として使用するため、1つのモデルで様々なDNA解析タスクを簡単に処理することはできない。
そこで本研究では,全哺乳類から200億以上の塩基対をトレーニングしたDNA事前学習型DNAモデルDNAGPTを提案する。
本稿では,事前学習期間にバイナリ分類タスク(dnaシークエンス)と数値回帰タスク(グアニン-シトシン含量予測)を追加し,対応する埋め込み層とエンコーディングヘッドでアーキテクチャを強化することで,古典的なgptモデルを強化する。
また、同じトークン空間内でシーケンス、番号、タスクに関連する情報をエンコードする包括的トークン言語を設計する。
そのため、DNAGPTは汎用的なDNA解析タスクを処理でき、同時にシーケンスデータと数値データの両方を処理することができる。
我々は、ゲノムシグナルおよび領域認識、疑似ゲノム生成およびmrnaアブランス回帰タスクに関するモデルを評価した。
プレトレーニングの恩恵を受けたdnagptは,ダウンストリームタスク用に特別に設計された既存モデルよりも優れた性能を示すことができる。
関連論文リスト
- HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。
このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。
HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-15T14:23:43Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Omni-DNA: A Unified Genomic Foundation Model for Cross-Modal and Multi-Task Learning [30.762037633773257]
我々は2000万から10億のパラメータからなるクロスモーダルマルチタスクモデルのファミリーであるOmni-DNAを紹介する。
本手法は, (i) 次のトークン予測目標によるDNA配列の事前学習, (ii) マルチモーダルなタスク固有トークンの拡張, 複数下流タスクの微調整の2段階からなる。
Nucleotide TransformerとGBベンチマークで評価すると、Omni-DNAは26タスク中18タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-05T09:20:52Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。
本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文 参考訳(メタデータ) (2024-12-06T21:23:35Z) - DNAHLM -- DNA sequence and Human Language mixed large language Model [0.0]
本稿では、GPT-2ネットワーク上でトレーニングされた事前学習モデルについて紹介し、DNA配列と英文の組み合わせについて述べる。
次に、分類やその他の下流タスクをAlpacaフォーマット命令データに変換し、命令の微調整を行う。
このモデルはDNA関連ゼロショット予測およびマルチタスク応用においてその効果を実証している。
論文 参考訳(メタデータ) (2024-10-22T11:51:09Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。