論文の概要: Chaining thoughts and LLMs to learn DNA structural biophysics
- arxiv url: http://arxiv.org/abs/2403.01332v1
- Date: Sat, 2 Mar 2024 22:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:07:52.348846
- Title: Chaining thoughts and LLMs to learn DNA structural biophysics
- Title(参考訳): DNA構造生理学を学ぶための連鎖思考とLLM
- Authors: Tyler D. Ross, Ashwin Gopinath
- Abstract要約: 汎用的な大規模言語モデルであるchatGPT 3.5-turboは、DNAの構造的生理学を学ぶために微調整できることを示す。
チェーン・オブ・シンクの応答を返すための微調整モデルとサブタスク用に微調整されたモデルの両方が、DNA配列とその構造を解析・設計する能力を持つことがわかった。
- 参考スコア(独自算出の注目度): 6.164223149261533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The future development of an AI scientist, a tool that is capable of
integrating a variety of experimental data and generating testable hypotheses,
holds immense potential. So far, bespoke machine learning models have been
created to specialize in singular scientific tasks, but otherwise lack the
flexibility of a general purpose model. Here, we show that a general purpose
large language model, chatGPT 3.5-turbo, can be fine-tuned to learn the
structural biophysics of DNA. We find that both fine-tuning models to return
chain-of-thought responses and chaining together models fine-tuned for subtasks
have an enhanced ability to analyze and design DNA sequences and their
structures.
- Abstract(参考訳): さまざまな実験データを統合し、テスト可能な仮説を生成することができるai科学者の将来の開発は、大きな可能性を秘めている。
これまでのところ、特異な科学的タスクに特化した機械学習モデルが作られてきたが、それ以外は汎用モデルの柔軟性が欠落している。
ここでは,汎用大規模言語モデルであるchatgpt 3.5-turboを用いて,dnaの構造生理学を学ぶことができることを示す。
サブタスク用に微調整されたモデルが結合することで、dna配列とその構造を解析および設計する能力が強化されることがわかりました。
関連論文リスト
- HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。
このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。
HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-15T14:23:43Z) - NatureLM: Deciphering the Language of Nature for Scientific Discovery [105.57567762153462]
基礎モデルは自然言語処理と人工知能に革命をもたらした。
科学発見のためのシーケンスベース科学基盤モデルであるNature Language Model(略してNatureLM)を紹介する。
論文 参考訳(メタデータ) (2025-02-11T13:08:03Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Cognitive Evolutionary Learning to Select Feature Interactions for Recommender Systems [59.117526206317116]
Cellはさまざまなタスクやデータに対して,さまざまなモデルに適応的に進化可能であることを示す。
4つの実世界のデータセットの実験では、細胞は最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-29T02:35:23Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Empowering Biomedical Discovery with AI Agents [15.125735219811268]
我々は「AI科学者」を懐疑的な学習と推論が可能なシステムとして想定する。
バイオメディカルAIエージェントは、人間の創造性と専門知識と、大規模なデータセットを分析するAIの能力を組み合わせる。
AIエージェントは、仮想細胞シミュレーション、プログラム可能な表現型の制御、細胞回路の設計、新しい治療法の開発など、幅広い領域に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-04-03T16:08:01Z) - Molecular modeling with machine-learned universal potential functions [15.138489177130511]
ニューラルネットワークは、エネルギーポテンシャル関数のための普遍近似器の訓練に利用できることを示す。
大規模結晶構造において,滑らかで微分可能で予測可能なポテンシャル関数を訓練することができた。
論文 参考訳(メタデータ) (2021-03-06T17:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。