論文の概要: Generative Language Models on Nucleotide Sequences of Human Genes
- arxiv url: http://arxiv.org/abs/2307.10634v1
- Date: Thu, 20 Jul 2023 06:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:19:40.474569
- Title: Generative Language Models on Nucleotide Sequences of Human Genes
- Title(参考訳): ヒト遺伝子のヌクレオチド配列に関する生成言語モデル
- Authors: Musa Nuri Ihtiyar and Arzucan Ozgur
- Abstract要約: 本研究は,DNA配列解析のための自己回帰型生成言語モデルであるGPT-3の開発に焦点をあてる。
DNA配列全体を扱うことは、相当な計算資源なしでは難しいため、我々はより小さなスケールで研究を行うことに決めた。
まず、ほぼ完全に探索されていない問題を体系的に検討し、RNNが最善を尽くしたことを観察した。
パープレキシティ(perplexity)のような古典的な指標を超えた、現実的なタスクの使用がいかに重要かが観察される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models, primarily transformer-based ones, obtained colossal success
in NLP. To be more precise, studies like BERT in NLU and works such as GPT-3
for NLG are very crucial. DNA sequences are very close to natural language in
terms of structure, so if the DNA-related bioinformatics domain is concerned,
discriminative models, like DNABert, exist. Yet, the generative side of the
coin is mainly unexplored to the best of our knowledge. Consequently, we
focused on developing an autoregressive generative language model like GPT-3
for DNA sequences. Because working with whole DNA sequences is challenging
without substantial computational resources, we decided to carry out our study
on a smaller scale, focusing on nucleotide sequences of human genes, unique
parts in DNA with specific functionalities, instead of the whole DNA. This
decision did not change the problem structure a lot due to the fact that both
DNA and genes can be seen as 1D sequences consisting of four different
nucleotides without losing much information and making too much simplification.
First of all, we systematically examined an almost entirely unexplored problem
and observed that RNNs performed the best while simple techniques like N-grams
were also promising. Another beneficial point was learning how to work with
generative models on languages we do not understand, unlike natural language.
How essential using real-life tasks beyond the classical metrics such as
perplexity is observed. Furthermore, checking whether the data-hungry nature of
these models can be changed through selecting a language with minimal
vocabulary size, four owing to four different types of nucleotides, is
examined. The reason for reviewing this was that choosing such a language might
make the problem easier. However, what we observed in this study was it did not
provide that much of a change in the amount of data needed.
- Abstract(参考訳): 言語モデルは、主にトランスフォーマーベースのもので、NLPで大きな成功を収めた。
より正確に言うと、NLUのBERTやNLGのGPT-3のような研究は非常に重要である。
DNA配列は構造的には自然言語に非常に近いため、DNA関連バイオインフォマティクスドメインが関係すると、DNABertのような識別モデルが存在する。
しかし、硬貨の生成的な側面は、主に我々の知識の最良の部分について未調査である。
そこで本研究では,DNAシークエンスのための自己回帰生成言語モデルであるGPT-3の開発に焦点をあてた。
DNAの全配列を扱うことは、相当な計算資源なしでは難しいため、我々は、DNA全体の機能ではなく、人間の遺伝子のヌクレオチド配列、特定の機能を持つDNAのユニークな部分に焦点を当て、より小さなスケールで研究を行うことに決めた。
この決定は、DNAと遺伝子が4つの異なるヌクレオチドから構成される1D配列として見ることができ、多くの情報を失い、単純化しすぎるという事実から、問題構造を大きく変えなかった。
まず,n-gramsのような単純な手法が有望であるのに対し,rnnは最善を尽くしているのが観察された。
もうひとつのメリットは、自然言語とは異なり、理解できない言語で生成モデルを扱う方法を学ぶことです。
パープレキシティのような古典的なメトリクスを超えて、現実のタスクを使用するのがいかに必要かが観察される。
さらに, 4種類のヌクレオチドにより, 語彙が最小の言語を選択することにより, これらのモデルのデータ・ハングリーの性質を変えることができるかどうかを調べた。
この点をレビューする理由は、そのような言語を選択することが問題をより簡単にするためである。
しかし、この研究で分かったのは、必要なデータ量の変更がほとんどないことでした。
関連論文リスト
- DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation
Models [8.159258510270243]
DNABERT-SはDNAの組込みを専門とするゲノム基盤モデルである。
ミミクス(MI-Mix)は、ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・区別するようにモデルを訓練する。
18種類のデータセットの実証結果から,DNABERT-Sの顕著な性能が確認された。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Efficient Automation of Neural Network Design: A Survey on
Differentiable Neural Architecture Search [70.31239620427526]
微分可能なニューラルネットワーク探索(DNAS)は、ディープニューラルネットワークアーキテクチャの発見を自動化するトレンドのアプローチとして、急速に自らを強制した。
この増加は主に、最初の主要なDNAS法の一つであるDARTSの人気が原因である。
本総説では,DNASに特に焦点をあて,最近のアプローチを概観する。
論文 参考訳(メタデータ) (2023-04-11T13:15:29Z) - Benchmarking Compositionality with Formal Languages [64.09083307778951]
我々は,NLPにおける大規模ニューラルモデルが,データから学習しながら,原始概念をより大規模な新しい組み合わせに組み込むことができるかどうかを検討する。
多くのトランスデューサをランダムにサンプリングすることにより、ニューラルネットワークによる合成関係の学習性に寄与する特性を探索する。
モデルは完全に関係を学習するか全く学習しないかが分かる。鍵となるのはトランジッションカバレッジであり、トランジッション毎に400の例でソフトな学習可能性制限を設定する。
論文 参考訳(メタデータ) (2022-08-17T10:03:18Z) - SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide
Association Study [48.75445626157713]
SNP2Vecは、SNPを理解するためのスケーラブルな自己教師付き事前学習手法である。
本研究では,SNP2Vecを用いて時系列ゲノミクスモデリングを行う。
中国コホートにおけるアルツハイマー病のリスク予測におけるアプローチの有効性について検討した。
論文 参考訳(メタデータ) (2022-04-14T01:53:58Z) - SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features
Learning from a Language Model [3.0643865202019698]
本稿では、ゲノムのアクセス可能な領域を特定するためのSemanticCAPという新しいソリューションを提案する。
遺伝子配列のコンテキストをモデル化する遺伝子モデルを導入し、遺伝子配列の効果的な表現を提供する。
公開ベンチマークによる他のシステムと比較すると,我々のモデルは性能が向上することが判明した。
論文 参考訳(メタデータ) (2022-04-05T11:47:58Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。