論文の概要: Generative Language Models on Nucleotide Sequences of Human Genes
- arxiv url: http://arxiv.org/abs/2307.10634v1
- Date: Thu, 20 Jul 2023 06:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:19:40.474569
- Title: Generative Language Models on Nucleotide Sequences of Human Genes
- Title(参考訳): ヒト遺伝子のヌクレオチド配列に関する生成言語モデル
- Authors: Musa Nuri Ihtiyar and Arzucan Ozgur
- Abstract要約: 本研究は,DNA配列解析のための自己回帰型生成言語モデルであるGPT-3の開発に焦点をあてる。
DNA配列全体を扱うことは、相当な計算資源なしでは難しいため、我々はより小さなスケールで研究を行うことに決めた。
まず、ほぼ完全に探索されていない問題を体系的に検討し、RNNが最善を尽くしたことを観察した。
パープレキシティ(perplexity)のような古典的な指標を超えた、現実的なタスクの使用がいかに重要かが観察される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models, primarily transformer-based ones, obtained colossal success
in NLP. To be more precise, studies like BERT in NLU and works such as GPT-3
for NLG are very crucial. DNA sequences are very close to natural language in
terms of structure, so if the DNA-related bioinformatics domain is concerned,
discriminative models, like DNABert, exist. Yet, the generative side of the
coin is mainly unexplored to the best of our knowledge. Consequently, we
focused on developing an autoregressive generative language model like GPT-3
for DNA sequences. Because working with whole DNA sequences is challenging
without substantial computational resources, we decided to carry out our study
on a smaller scale, focusing on nucleotide sequences of human genes, unique
parts in DNA with specific functionalities, instead of the whole DNA. This
decision did not change the problem structure a lot due to the fact that both
DNA and genes can be seen as 1D sequences consisting of four different
nucleotides without losing much information and making too much simplification.
First of all, we systematically examined an almost entirely unexplored problem
and observed that RNNs performed the best while simple techniques like N-grams
were also promising. Another beneficial point was learning how to work with
generative models on languages we do not understand, unlike natural language.
How essential using real-life tasks beyond the classical metrics such as
perplexity is observed. Furthermore, checking whether the data-hungry nature of
these models can be changed through selecting a language with minimal
vocabulary size, four owing to four different types of nucleotides, is
examined. The reason for reviewing this was that choosing such a language might
make the problem easier. However, what we observed in this study was it did not
provide that much of a change in the amount of data needed.
- Abstract(参考訳): 言語モデルは、主にトランスフォーマーベースのもので、NLPで大きな成功を収めた。
より正確に言うと、NLUのBERTやNLGのGPT-3のような研究は非常に重要である。
DNA配列は構造的には自然言語に非常に近いため、DNA関連バイオインフォマティクスドメインが関係すると、DNABertのような識別モデルが存在する。
しかし、硬貨の生成的な側面は、主に我々の知識の最良の部分について未調査である。
そこで本研究では,DNAシークエンスのための自己回帰生成言語モデルであるGPT-3の開発に焦点をあてた。
DNAの全配列を扱うことは、相当な計算資源なしでは難しいため、我々は、DNA全体の機能ではなく、人間の遺伝子のヌクレオチド配列、特定の機能を持つDNAのユニークな部分に焦点を当て、より小さなスケールで研究を行うことに決めた。
この決定は、DNAと遺伝子が4つの異なるヌクレオチドから構成される1D配列として見ることができ、多くの情報を失い、単純化しすぎるという事実から、問題構造を大きく変えなかった。
まず,n-gramsのような単純な手法が有望であるのに対し,rnnは最善を尽くしているのが観察された。
もうひとつのメリットは、自然言語とは異なり、理解できない言語で生成モデルを扱う方法を学ぶことです。
パープレキシティのような古典的なメトリクスを超えて、現実のタスクを使用するのがいかに必要かが観察される。
さらに, 4種類のヌクレオチドにより, 語彙が最小の言語を選択することにより, これらのモデルのデータ・ハングリーの性質を変えることができるかどうかを調べた。
この点をレビューする理由は、そのような言語を選択することが問題をより簡単にするためである。
しかし、この研究で分かったのは、必要なデータ量の変更がほとんどないことでした。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - DNAHLM -- DNA sequence and Human Language mixed large language Model [0.0]
本稿では、GPT-2ネットワーク上でトレーニングされた事前学習モデルについて紹介し、DNA配列と英文の組み合わせについて述べる。
次に、分類やその他の下流タスクをAlpacaフォーマット命令データに変換し、命令の微調整を行う。
このモデルはDNA関連ゼロショット予測およびマルチタスク応用においてその効果を実証している。
論文 参考訳(メタデータ) (2024-10-22T11:51:09Z) - A Benchmark Dataset for Multimodal Prediction of Enzymatic Function Coupling DNA Sequences and Natural Language [3.384797724820242]
DNA配列から遺伝子機能を予測することは、生物学における根本的な課題である。
深層学習モデルは、DNA配列を埋め込み、その酵素機能を予測するために提案されている。
科学界の生物学的機能に関する知識の多くは分類学的なラベルで表されていない。
論文 参考訳(メタデータ) (2024-07-21T19:27:43Z) - Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。
我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。
我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文 参考訳(メタデータ) (2024-06-20T09:44:53Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Efficient Automation of Neural Network Design: A Survey on
Differentiable Neural Architecture Search [70.31239620427526]
微分可能なニューラルネットワーク探索(DNAS)は、ディープニューラルネットワークアーキテクチャの発見を自動化するトレンドのアプローチとして、急速に自らを強制した。
この増加は主に、最初の主要なDNAS法の一つであるDARTSの人気が原因である。
本総説では,DNASに特に焦点をあて,最近のアプローチを概観する。
論文 参考訳(メタデータ) (2023-04-11T13:15:29Z) - SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide
Association Study [48.75445626157713]
SNP2Vecは、SNPを理解するためのスケーラブルな自己教師付き事前学習手法である。
本研究では,SNP2Vecを用いて時系列ゲノミクスモデリングを行う。
中国コホートにおけるアルツハイマー病のリスク予測におけるアプローチの有効性について検討した。
論文 参考訳(メタデータ) (2022-04-14T01:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。