論文の概要: HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution
- arxiv url: http://arxiv.org/abs/2306.15794v2
- Date: Tue, 14 Nov 2023 07:09:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 18:35:47.662103
- Title: HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution
- Title(参考訳): HyenaDNA:単一ヌクレオチド分解能における長距離ゲノム配列モデリング
- Authors: Eric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Callum
Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli,
Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Chris R\'e
- Abstract要約: 本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
- 参考スコア(独自算出の注目度): 76.97231739317259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Genomic (DNA) sequences encode an enormous amount of information for gene
regulation and protein synthesis. Similar to natural language models,
researchers have proposed foundation models in genomics to learn generalizable
features from unlabeled genome data that can then be fine-tuned for downstream
tasks such as identifying regulatory elements. Due to the quadratic scaling of
attention, previous Transformer-based genomic models have used 512 to 4k tokens
as context (<0.001% of the human genome), significantly limiting the modeling
of long-range interactions in DNA. In addition, these methods rely on
tokenizers or fixed k-mers to aggregate meaningful DNA units, losing single
nucleotide resolution where subtle genetic variations can completely alter
protein function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a
large language model based on implicit convolutions was shown to match
attention in quality while allowing longer context lengths and lower time
complexity. Leveraging Hyena's new long-range capabilities, we present
HyenaDNA, a genomic foundation model pretrained on the human reference genome
with context lengths of up to 1 million tokens at the single nucleotide-level -
an up to 500x increase over previous dense attention-based models. HyenaDNA
scales sub-quadratically in sequence length (training up to 160x faster than
Transformer), uses single nucleotide tokens, and has full global context at
each layer. We explore what longer context enables - including the first use of
in-context learning in genomics. On fine-tuned benchmarks from the Nucleotide
Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 18 datasets
using a model with orders of magnitude less parameters and pretraining data. On
the GenomicBenchmarks, HyenaDNA surpasses SotA on 7 of 8 datasets on average by
+10 accuracy points. Code at https://github.com/HazyResearch/hyena-dna.
- Abstract(参考訳): ゲノム配列は、遺伝子制御とタンパク質合成のための膨大な情報をコードしている。
自然言語モデルと同様に、研究者はゲノム学の基礎モデルを提案し、ラベルのないゲノムデータから一般化可能な特徴を学習し、規制要素の特定などの下流タスクに微調整することができる。
注意の二次的スケーリングのため、トランスフォーマーベースのゲノムモデルは512から4kトークンを文脈として使用し(ヒトゲノムの0.001%)、DNA内の長距離相互作用のモデリングを著しく制限した。
さらに、これらの手法は、意味のあるDNA単位を集約するためにトークン化剤または固定kマーに依存しており、微妙な遺伝的変異が単一ヌクレオチドポリモルフィズム(SNP)を介してタンパク質機能を完全に変更できる単一ヌクレオチド分解能を失う。
近年,暗黙の畳み込みに基づく大規模言語モデルであるhyenaが,コンテキスト長の長さと時間複雑性の低減を両立させた。
ヒエナの新しい長距離機能を活用して、ヒトの参照ゲノム上に事前訓練されたゲノム基盤モデルであるHyenaDNAを、単一ヌクレオチドレベルで最大100万個のトークンのコンテキスト長が、それまでの高密度注意ベースモデルよりも最大500倍も増加する。
HyenaDNAは配列の長さ(Transformerの最大160倍の速度)でサブクアドラルスケールし、単一のヌクレオチドトークンを使用し、各層で完全なグローバルコンテキストを持つ。
我々は、ゲノム学におけるインコンテキスト学習の最初の使用を含む、より長いコンテキストを可能にするものを探る。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
GenomicBenchmarksでは、HyenaDNAが8つのデータセットのうち7つでSotAを+10の精度で上回っている。
コード: https://github.com/hazyresearch/hyena-dna。
関連論文リスト
- VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文 参考訳(メタデータ) (2023-02-21T18:29:25Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。