論文の概要: Genomic Language Models: Opportunities and Challenges
- arxiv url: http://arxiv.org/abs/2407.11435v1
- Date: Tue, 16 Jul 2024 06:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 16:22:29.720270
- Title: Genomic Language Models: Opportunities and Challenges
- Title(参考訳): ゲノム言語モデル:機会と課題
- Authors: Gonzalo Benegas, Chengzhong Ye, Carlos Albors, Jianan Canal Li, Yun S. Song,
- Abstract要約: ゲノム言語モデル(gLM)は、ゲノムの理解を著しく前進させる可能性があり、様々なスケールのDNA要素が相互作用して複雑な機能を引き起こす。
本稿では、フィットネス予測、シーケンス設計、伝達学習など、gLMの重要応用を強調して、この可能性を実証する。
本稿では,gLMの開発と評価について論じる。
- 参考スコア(独自算出の注目度): 0.2912705470788796
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are having transformative impacts across a wide range of scientific fields, particularly in the biomedical sciences. Just as the goal of Natural Language Processing is to understand sequences of words, a major objective in biology is to understand biological sequences. Genomic Language Models (gLMs), which are LLMs trained on DNA sequences, have the potential to significantly advance our understanding of genomes and how DNA elements at various scales interact to give rise to complex functions. In this review, we showcase this potential by highlighting key applications of gLMs, including fitness prediction, sequence design, and transfer learning. Despite notable recent progress, however, developing effective and efficient gLMs presents numerous challenges, especially for species with large, complex genomes. We discuss major considerations for developing and evaluating gLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い科学分野、特に生物医学分野において、変革的な影響を及ぼしている。
自然言語処理の目的が単語の列を理解することにあるように、生物学の主要な目的は生物学的列を理解することである。
ゲノム言語モデル(gLM)は、DNA配列に基づいて訓練されたLLMであり、ゲノムの理解を深め、様々なスケールのDNA要素がどのように相互作用して複雑な機能を引き起こすかを示す可能性がある。
本稿では、フィットネス予測、シーケンス設計、伝達学習など、gLMの重要応用について紹介する。
しかし、最近の顕著な進歩にもかかわらず、効率的かつ効率的なgLMの開発は、特に大型で複雑なゲノムを持つ種に対して多くの課題を呈している。
本稿では,gLMの開発と評価について論じる。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。
単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文 参考訳(メタデータ) (2024-12-24T04:28:42Z) - Multimodal Large Language Models for Bioimage Analysis [39.120941702559726]
MLLM(Multimodal Large Language Models)は、理解、分析、推論、一般化など、創発的な能力を示す。
これらの能力により、MLLMは生物学的画像や様々なモダリティによって得られたデータから複雑な情報を抽出することを約束する。
MLLMの開発は、生物学研究における人間の研究者を増強するためのインテリジェントアシスタントやエージェントとしての役割において、公約が増していることを示している。
論文 参考訳(メタデータ) (2024-07-29T08:21:25Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。