論文の概要: Can Large Language Models Predict Antimicrobial Resistance Gene?
- arxiv url: http://arxiv.org/abs/2503.04413v1
- Date: Thu, 06 Mar 2025 13:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:13.534650
- Title: Can Large Language Models Predict Antimicrobial Resistance Gene?
- Title(参考訳): 大規模言語モデルは抗菌抵抗性遺伝子を予測することができるか?
- Authors: Hyunwoo Yoo,
- Abstract要約: 本研究では, 大規模言語モデルが様々なラベルを持つDNA配列をいかに効果的に扱うかを評価する。
抗菌抵抗性遺伝子について実験を行い、その結果、生成型大規模言語モデルが同等または潜在的に優れた予測を提供することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study demonstrates that generative large language models can be utilized in a more flexible manner for DNA sequence analysis and classification tasks compared to traditional transformer encoder-based models. While recent encoder-based models such as DNABERT and Nucleotide Transformer have shown significant performance in DNA sequence classification, transformer decoder-based generative models have not yet been extensively explored in this field. This study evaluates how effectively generative Large Language Models handle DNA sequences with various labels and analyzes performance changes when additional textual information is provided. Experiments were conducted on antimicrobial resistance genes, and the results show that generative Large Language Models can offer comparable or potentially better predictions, demonstrating flexibility and accuracy when incorporating both sequence and textual information. The code and data used in this work are available at the following GitHub repository: https://github.com/biocomgit/llm4dna.
- Abstract(参考訳): 本研究は, 従来のトランスフォーマーエンコーダモデルと比較して, DNA配列解析や分類タスクにおいて, より柔軟な手法で生成型大規模言語モデルを利用できることを実証した。
DNABERTやヌクレオチドトランスフォーマーのようなエンコーダベースの最近のモデルでは、DNA配列の分類において顕著な性能を示したが、トランスフォーマデコーダベースの生成モデルは、この分野ではまだ広く研究されていない。
本研究は, 大規模言語モデルが様々なラベルを持つDNA配列を効果的に扱えるかを評価し, 追加のテキスト情報提供時の性能変化を解析する。
抗菌抵抗性遺伝子について実験を行い、その結果、生成型大規模言語モデルでは、配列情報とテキスト情報の両方を組み込んだ場合の柔軟性と精度を実証し、同等または潜在的に優れた予測が可能であることが示された。
この作業で使用されるコードとデータは、以下のGitHubリポジトリで入手できる。
関連論文リスト
- DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。
本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文 参考訳(メタデータ) (2024-12-06T21:23:35Z) - DNAHLM -- DNA sequence and Human Language mixed large language Model [0.0]
本稿では、GPT-2ネットワーク上でトレーニングされた事前学習モデルについて紹介し、DNA配列と英文の組み合わせについて述べる。
次に、分類やその他の下流タスクをAlpacaフォーマット命令データに変換し、命令の微調整を行う。
このモデルはDNA関連ゼロショット予測およびマルチタスク応用においてその効果を実証している。
論文 参考訳(メタデータ) (2024-10-22T11:51:09Z) - A Benchmark Dataset for Multimodal Prediction of Enzymatic Function Coupling DNA Sequences and Natural Language [3.384797724820242]
DNA配列から遺伝子機能を予測することは、生物学における根本的な課題である。
深層学習モデルは、DNA配列を埋め込み、その酵素機能を予測するために提案されている。
科学界の生物学的機能に関する知識の多くは分類学的なラベルで表されていない。
論文 参考訳(メタデータ) (2024-07-21T19:27:43Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - GENIE: Large Scale Pre-training for Text Generation with Diffusion Model [86.2022500090247]
GENIEは、Transformerと拡散を組み合わせたシーケンス・ツー・シーケンスのテキスト生成モデルである。
本研究では,拡散モデルの特徴を基礎として,連続段落認知という新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-12-22T13:17:11Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。