Fugu-MT 論文翻訳(概要): Generative Language Models on Nucleotide Sequences of Human Genes

論文の概要: Generative Language Models on Nucleotide Sequences of Human Genes

arxiv url: http://arxiv.org/abs/2307.10634v1
Date: Thu, 20 Jul 2023 06:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 14:19:40.474569
Title: Generative Language Models on Nucleotide Sequences of Human Genes
Title（参考訳）: ヒト遺伝子のヌクレオチド配列に関する生成言語モデル
Authors: Musa Nuri Ihtiyar and Arzucan Ozgur
Abstract要約: 本研究は,DNA配列解析のための自己回帰型生成言語モデルであるGPT-3の開発に焦点をあてる。 DNA配列全体を扱うことは、相当な計算資源なしでは難しいため、我々はより小さなスケールで研究を行うことに決めた。まず、ほぼ完全に探索されていない問題を体系的に検討し、RNNが最善を尽くしたことを観察した。パープレキシティ(perplexity)のような古典的な指標を超えた、現実的なタスクの使用がいかに重要かが観察される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models, primarily transformer-based ones, obtained colossal success in NLP. To be more precise, studies like BERT in NLU and works such as GPT-3 for NLG are very crucial. DNA sequences are very close to natural language in terms of structure, so if the DNA-related bioinformatics domain is concerned, discriminative models, like DNABert, exist. Yet, the generative side of the coin is mainly unexplored to the best of our knowledge. Consequently, we focused on developing an autoregressive generative language model like GPT-3 for DNA sequences. Because working with whole DNA sequences is challenging without substantial computational resources, we decided to carry out our study on a smaller scale, focusing on nucleotide sequences of human genes, unique parts in DNA with specific functionalities, instead of the whole DNA. This decision did not change the problem structure a lot due to the fact that both DNA and genes can be seen as 1D sequences consisting of four different nucleotides without losing much information and making too much simplification. First of all, we systematically examined an almost entirely unexplored problem and observed that RNNs performed the best while simple techniques like N-grams were also promising. Another beneficial point was learning how to work with generative models on languages we do not understand, unlike natural language. How essential using real-life tasks beyond the classical metrics such as perplexity is observed. Furthermore, checking whether the data-hungry nature of these models can be changed through selecting a language with minimal vocabulary size, four owing to four different types of nucleotides, is examined. The reason for reviewing this was that choosing such a language might make the problem easier. However, what we observed in this study was it did not provide that much of a change in the amount of data needed.
Abstract（参考訳）: 言語モデルは、主にトランスフォーマーベースのもので、NLPで大きな成功を収めた。より正確に言うと、NLUのBERTやNLGのGPT-3のような研究は非常に重要である。 DNA配列は構造的には自然言語に非常に近いため、DNA関連バイオインフォマティクスドメインが関係すると、DNABertのような識別モデルが存在する。しかし、硬貨の生成的な側面は、主に我々の知識の最良の部分について未調査である。そこで本研究では,DNAシークエンスのための自己回帰生成言語モデルであるGPT-3の開発に焦点をあてた。 DNAの全配列を扱うことは、相当な計算資源なしでは難しいため、我々は、DNA全体の機能ではなく、人間の遺伝子のヌクレオチド配列、特定の機能を持つDNAのユニークな部分に焦点を当て、より小さなスケールで研究を行うことに決めた。この決定は、DNAと遺伝子が4つの異なるヌクレオチドから構成される1D配列として見ることができ、多くの情報を失い、単純化しすぎるという事実から、問題構造を大きく変えなかった。まず,n-gramsのような単純な手法が有望であるのに対し,rnnは最善を尽くしているのが観察された。もうひとつのメリットは、自然言語とは異なり、理解できない言語で生成モデルを扱う方法を学ぶことです。パープレキシティのような古典的なメトリクスを超えて、現実のタスクを使用するのがいかに必要かが観察される。さらに, 4種類のヌクレオチドにより, 語彙が最小の言語を選択することにより, これらのモデルのデータ・ハングリーの性質を変えることができるかどうかを調べた。この点をレビューする理由は、そのような言語を選択することが問題をより簡単にするためである。しかし、この研究で分かったのは、必要なデータ量の変更がほとんどないことでした。

関連論文リスト

GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。 HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-15T14:23:43Z)
Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文参考訳（メタデータ） (2024-12-18T10:55:43Z)
Can linguists better understand DNA? [0.0]
本研究では,自然言語と遺伝子配列/言語間の能力伝達の存在を論じる。 DNA-ペア分類(DNA配列類似性)とDNA-タンパク質-ペア分類(遺伝子コーディング決定)の2つの類似タスクを構築した。これらのタスクは、自然言語から遺伝子配列への能力の伝達可能性を検証するために設計された。
論文参考訳（メタデータ） (2024-12-10T17:06:33Z)
Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文参考訳（メタデータ） (2024-11-11T16:33:25Z)
DNAHLM -- DNA sequence and Human Language mixed large language Model [0.0]
本稿では、GPT-2ネットワーク上でトレーニングされた事前学習モデルについて紹介し、DNA配列と英文の組み合わせについて述べる。次に、分類やその他の下流タスクをAlpacaフォーマット命令データに変換し、命令の微調整を行う。このモデルはDNA関連ゼロショット予測およびマルチタスク応用においてその効果を実証している。
論文参考訳（メタデータ） (2024-10-22T11:51:09Z)
A Benchmark Dataset for Multimodal Prediction of Enzymatic Function Coupling DNA Sequences and Natural Language [3.384797724820242]
DNA配列から遺伝子機能を予測することは、生物学における根本的な課題である。深層学習モデルは、DNA配列を埋め込み、その酵素機能を予測するために提案されている。科学界の生物学的機能に関する知識の多くは分類学的なラベルで表されていない。
論文参考訳（メタデータ） (2024-07-21T19:27:43Z)
Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文参考訳（メタデータ） (2024-06-20T09:44:53Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文参考訳（メタデータ） (2023-11-21T12:34:00Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
Efficient Automation of Neural Network Design: A Survey on Differentiable Neural Architecture Search [70.31239620427526]
微分可能なニューラルネットワーク探索(DNAS)は、ディープニューラルネットワークアーキテクチャの発見を自動化するトレンドのアプローチとして、急速に自らを強制した。この増加は主に、最初の主要なDNAS法の一つであるDARTSの人気が原因である。本総説では,DNASに特に焦点をあて,最近のアプローチを概観する。
論文参考訳（メタデータ） (2023-04-11T13:15:29Z)
SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide Association Study [48.75445626157713]
SNP2Vecは、SNPを理解するためのスケーラブルな自己教師付き事前学習手法である。本研究では,SNP2Vecを用いて時系列ゲノミクスモデリングを行う。中国コホートにおけるアルツハイマー病のリスク予測におけるアプローチの有効性について検討した。
論文参考訳（メタデータ） (2022-04-14T01:53:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。