論文の概要: Embed-Search-Align: DNA Sequence Alignment using Transformer Models
- arxiv url: http://arxiv.org/abs/2309.11087v3
- Date: Tue, 20 Feb 2024 01:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:51:22.352670
- Title: Embed-Search-Align: DNA Sequence Alignment using Transformer Models
- Title(参考訳): 組込み検索アライメント:トランスフォーマーモデルを用いたDNA配列アライメント
- Authors: Pavan Holur, K. C. Enevoldsen, Lajoyce Mboning, Thalia Georgiou,
Louis-S. Bouchard, Matteo Pellegrini and Vwani Roychowdhury
- Abstract要約: 3ギガ塩基(単一ハプロイド)のヒト基準ゲノム上にDNA読取を調整するための組込み検索タスクを提案する。
DNA-ESAは、250長の読みを3ギガ塩基(単倍体)のヒト基準ゲノムに合わせると97%正確である
- 参考スコア(独自算出の注目度): 2.721343300148367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DNA sequence alignment involves assigning short DNA reads to the most
probable locations on an extensive reference genome. This process is crucial
for various genomic analyses, including variant calling, transcriptomics, and
epigenomics. Conventional methods, refined over decades, tackle this challenge
in two steps: genome indexing followed by efficient search to locate likely
positions for given reads. Building on the success of Large Language Models
(LLM) in encoding text into embeddings, where the distance metric captures
semantic similarity, recent efforts have explored whether the same Transformer
architecture can produce numerical representations for DNA sequences. Such
models have shown early promise in tasks involving classification of short DNA
sequences, such as the detection of coding vs non-coding regions, as well as
the identification of enhancer and promoter sequences. Performance at sequence
classification tasks does not, however, translate to sequence alignment, where
it is necessary to conduct a genome-wide search to successfully align every
read. We address this open problem by framing it as an Embed-Search-Align task.
In this framework, a novel encoder model DNA-ESA generates representations of
reads and fragments of the reference, which are projected into a shared vector
space where the read-fragment distance is used as surrogate for alignment. In
particular, DNA-ESA introduces: (1) Contrastive loss for self-supervised
training of DNA sequence representations, facilitating rich sequence-level
embeddings, and (2) a DNA vector store to enable search across fragments on a
global scale. DNA-ESA is >97% accurate when aligning 250-length reads onto a
human reference genome of 3 gigabases (single-haploid), far exceeds the
performance of 6 recent DNA-Transformer model baselines and shows task transfer
across chromosomes and species.
- Abstract(参考訳): DNA配列のアライメントは、幅広い参照ゲノム上の最も可能性の高い場所に短いDNA読取を割り当てることを含む。
このプロセスは、変異呼び出し、転写学、エピジェノミクスを含む様々なゲノム解析に不可欠である。
何十年にもわたって洗練されてきた従来の手法は、ゲノムインデクシングと効率的な検索という2つのステップでこの問題に取り組む。
距離メトリクスが意味的類似性を捉えた埋め込みへのテキストのエンコーディングにおける大言語モデル(llm)の成功に基づいて、最近の研究は、同じトランスフォーマーアーキテクチャがdna配列の数値表現を生成できるかどうかを探っている。
このようなモデルは、コーディングと非コーディング領域の検出、エンハンサーとプロモーター配列の同定など、短いDNA配列の分類を含むタスクにおいて、早期に有望であることが示されている。
しかし、シーケンス分類タスクのパフォーマンスは配列アライメントに変換されず、ゲノム全体の検索を行い、すべての読み取りを適切にアライメントする必要がある。
我々は,この課題を組込み探索処理タスクとして組み込むことで解決する。
この枠組みでは、新しいエンコーダモデルDNA-ESAが参照の読み取りとフラグメントの表現を生成し、リードフラグメント距離をアライメントの代理として使用する共有ベクトル空間に投影する。
特にDNA-ESAは,(1)DNA配列表現の自己教師的訓練における対照的な損失,(2)断片を世界規模で探索するためのDNAベクターストアを導入している。
DNA-ESAは、250長の読みを3ギガ塩基(単倍体)のヒト基準ゲノムに合わせると97%正確であり、最近の6つのDNA-トランスフォーマーモデルベースラインのパフォーマンスをはるかに上回り、染色体や種間でタスク転送を示す。
関連論文リスト
- DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation
Models [8.159258510270243]
DNABERT-SはDNAの組込みを専門とするゲノム基盤モデルである。
ミミクス(MI-Mix)は、ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・区別するようにモデルを訓練する。
18種類のデータセットの実証結果から,DNABERT-Sの顕著な性能が確認された。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.35697293789605]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - Vector Embeddings by Sequence Similarity and Context for Improved
Compression, Similarity Search, Clustering, Organization, and Manipulation of
cDNA Libraries [3.162643581562756]
本稿では、フラット文字列遺伝子形式(FASTA/FASTQ5)の研究における、遺伝子の組織的数値表現の有用性を示す。
この解は、配列を別の表現に変換することで、生の配列自身と比較して、類似したグループへのクラスタリングを容易にする。
論文 参考訳(メタデータ) (2023-08-08T17:31:17Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species
Genome [15.051816241193753]
我々は、k-merのトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$(BPE)に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。