論文の概要: HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution
- arxiv url: http://arxiv.org/abs/2306.15794v1
- Date: Tue, 27 Jun 2023 20:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:34:47.550420
- Title: HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution
- Title(参考訳): HyenaDNA:単一ヌクレオチド分解能における長距離ゲノム配列モデリング
- Authors: Eric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Callum
Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli,
Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Chris R\'e
- Abstract要約: 本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
HyenaDNAはシークエンスの長さ(Transformerより160倍速い)でサブクアドラルスケールし、単一のヌクレオチドトークンを使用し、各層で完全なグローバルコンテキストを持つ。
- 参考スコア(独自算出の注目度): 92.09433850823694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Genomic (DNA) sequences encode an enormous amount of information for gene
regulation and protein synthesis. Similar to natural language models,
researchers have proposed foundation models in genomics to learn generalizable
features from unlabeled genome data that can then be fine-tuned for downstream
tasks such as identifying regulatory elements. Due to the quadratic scaling of
attention, previous Transformer-based genomic models have used 512 to 4k tokens
as context (<0.001% of the human genome), significantly limiting the modeling
of long-range interactions in DNA. In addition, these methods rely on
tokenizers to aggregate meaningful DNA units, losing single nucleotide
resolution where subtle genetic variations can completely alter protein
function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large
language model based on implicit convolutions was shown to match attention in
quality while allowing longer context lengths and lower time complexity.
Leveraging Hyenas new long-range capabilities, we present HyenaDNA, a genomic
foundation model pretrained on the human reference genome with context lengths
of up to 1 million tokens at the single nucleotide-level, an up to 500x
increase over previous dense attention-based models. HyenaDNA scales
sub-quadratically in sequence length (training up to 160x faster than
Transformer), uses single nucleotide tokens, and has full global context at
each layer. We explore what longer context enables - including the first use of
in-context learning in genomics for simple adaptation to novel tasks without
updating pretrained model weights. On fine-tuned benchmarks from the Nucleotide
Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 17 datasets
using a model with orders of magnitude less parameters and pretraining data. On
the GenomicBenchmarks, HyenaDNA surpasses SotA on all 8 datasets on average by
+9 accuracy points.
- Abstract(参考訳): ゲノム配列は、遺伝子制御とタンパク質合成のための膨大な情報をコードしている。
自然言語モデルと同様に、研究者はゲノム学の基礎モデルを提案し、ラベルのないゲノムデータから一般化可能な特徴を学習し、規制要素の特定などの下流タスクに微調整することができる。
注意の二次的スケーリングのため、トランスフォーマーベースのゲノムモデルは512から4kトークンを文脈として使用し(ヒトゲノムの0.001%)、DNA内の長距離相互作用のモデリングを著しく制限した。
さらに、これらの手法は、意味のあるDNA単位を集約するトークン化剤に依存しており、単一のヌクレオチドポリモルフィズム(SNP)を介してタンパク質の機能を完全に変更できる単一のヌクレオチド分解能を失う。
近年,暗黙の畳み込みに基づく大規模言語モデルであるhyenaが,コンテキスト長の長さと時間複雑性の低減を両立させた。
ハイエナの新しい長距離機能を利用して、ヒトの基準ゲノムに基づいて事前訓練されたゲノム基盤モデルhyenadnaを1つのヌクレオチドレベルで最大100万トークンのコンテキスト長で提示し、従来の集中的注意に基づくモデルと比較して最大500倍の速度で増加させる。
HyenaDNAは配列の長さ(Transformerの最大160倍の速度)でサブクアドラルスケールし、単一のヌクレオチドトークンを使用し、各層で完全なグローバルコンテキストを持つ。
我々は、事前学習されたモデル重みを更新せずに、新しいタスクへの簡単な適応のためにゲノム学におけるインコンテキスト学習を初めて使用することを含む、より長いコンテキストを可能にするものを探る。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが17のデータセットのうち12の最先端(SotA)に到達している。
GenomicBenchmarksでは、HyenaDNAは平均して8つのデータセットでSotAを+9の精度で上回っている。
関連論文リスト
- VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文 参考訳(メタデータ) (2023-02-21T18:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。