Fugu-MT 論文翻訳(概要): Chaining thoughts and LLMs to learn DNA structural biophysics

論文の概要: Chaining thoughts and LLMs to learn DNA structural biophysics

arxiv url: http://arxiv.org/abs/2403.01332v1
Date: Sat, 2 Mar 2024 22:38:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 14:07:52.348846
Title: Chaining thoughts and LLMs to learn DNA structural biophysics
Title（参考訳）: DNA構造生理学を学ぶための連鎖思考とLLM
Authors: Tyler D. Ross, Ashwin Gopinath
Abstract要約: 汎用的な大規模言語モデルであるchatGPT 3.5-turboは、DNAの構造的生理学を学ぶために微調整できることを示す。チェーン・オブ・シンクの応答を返すための微調整モデルとサブタスク用に微調整されたモデルの両方が、DNA配列とその構造を解析・設計する能力を持つことがわかった。
参考スコア（独自算出の注目度）: 6.164223149261533
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The future development of an AI scientist, a tool that is capable of integrating a variety of experimental data and generating testable hypotheses, holds immense potential. So far, bespoke machine learning models have been created to specialize in singular scientific tasks, but otherwise lack the flexibility of a general purpose model. Here, we show that a general purpose large language model, chatGPT 3.5-turbo, can be fine-tuned to learn the structural biophysics of DNA. We find that both fine-tuning models to return chain-of-thought responses and chaining together models fine-tuned for subtasks have an enhanced ability to analyze and design DNA sequences and their structures.
Abstract（参考訳）: さまざまな実験データを統合し、テスト可能な仮説を生成することができるai科学者の将来の開発は、大きな可能性を秘めている。これまでのところ、特異な科学的タスクに特化した機械学習モデルが作られてきたが、それ以外は汎用モデルの柔軟性が欠落している。ここでは,汎用大規模言語モデルであるchatgpt 3.5-turboを用いて,dnaの構造生理学を学ぶことができることを示す。サブタスク用に微調整されたモデルが結合することで、dna配列とその構造を解析および設計する能力が強化されることがわかりました。

関連論文リスト

UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion [61.690978792873196]
既存のアプローチは自己回帰シーケンスモデルか拡散モデルのいずれかに依存している。自己回帰的次トーケン予測と条件拡散モデルを組み合わせた統合フレームワークUniGenXを提案する。材料および小分子生成タスクにおけるUniGenXの有効性を検証する。
論文参考訳（メタデータ） (2025-03-09T16:43:07Z)
HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。 HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-15T14:23:43Z)
Nature Language Model: Deciphering the Language of Nature for Scientific Discovery [105.55751854768297]
基礎モデルは自然言語処理と人工知能に革命をもたらした。本研究では,科学発見のためのシーケンスベース科学基盤モデルであるNatureLMを紹介する。
論文参考訳（メタデータ） (2025-02-11T13:08:03Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language [0.4631438140637248]
MAMMALは多タスク基盤モデルの作成に応用された汎用的手法であり、多様なモダリティにわたる大規模生物学的データセットから学習する。 11の下流タスクで評価され、9つのタスクでSOTA(the new state of the art)に到達し、2つのタスクでSOTAに匹敵する。抗体-抗原およびナノボディ-抗原複合体上でのαfold 3結合予測能について検討し, 4点中3点においてMAMMALの分類性能は有意に向上した。
論文参考訳（メタデータ） (2024-10-28T20:45:52Z)
Long Term Memory: The Foundation of AI Self-Evolution [48.52678410533424]
GPTのような大規模な言語モデル(LLM)は、膨大なデータセットに基づいてトレーニングされており、言語理解、推論、計画において印象的な能力を示している。ほとんどの研究は、より強力な基盤モデルを構築するために、より大規模なデータセットをトレーニングすることで、これらのモデルを強化することに重点を置いている。大規模なトレーニングとは異なり、推論中にモデルを進化させることは、AIの自己進化(self-evolution)と呼ばれるプロセスと同等に重要である。
論文参考訳（メタデータ） (2024-10-21T06:09:30Z)
Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions [4.36852565205713]
我々は,これまでで最大のオープンソースマルチオミック基盤モデルについて紹介する。これらのマルチオミクスモデルは、様々な単一オミクス分布間の結合表現を学習可能であることを示す。また,MOMを微調整して,タンパク質-核酸相互作用タスクの最先端結果が得られることを示した。
論文参考訳（メタデータ） (2024-08-29T03:56:40Z)
Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文参考訳（メタデータ） (2024-07-03T10:31:30Z)
Cognitive Evolutionary Learning to Select Feature Interactions for Recommender Systems [59.117526206317116]
Cellはさまざまなタスクやデータに対して,さまざまなモデルに適応的に進化可能であることを示す。 4つの実世界のデータセットの実験では、細胞は最先端のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2024-05-29T02:35:23Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Empowering Biomedical Discovery with AI Agents [15.125735219811268]
我々は「AI科学者」を懐疑的な学習と推論が可能なシステムとして想定する。バイオメディカルAIエージェントは、人間の創造性と専門知識と、大規模なデータセットを分析するAIの能力を組み合わせる。 AIエージェントは、仮想細胞シミュレーション、プログラム可能な表現型の制御、細胞回路の設計、新しい治療法の開発など、幅広い領域に影響を与える可能性がある。
論文参考訳（メタデータ） (2024-04-03T16:08:01Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
Constructing Effective Machine Learning Models for the Sciences: A Multidisciplinary Perspective [77.53142165205281]
線形回帰モデルに変数間の変換や相互作用を手動で追加することで、非線形解が必ずしも改善されないことを示す。データ駆動モデルを構築する前にこれを認識する方法や、そのような分析が本質的に解釈可能な回帰モデルへの移行にどのように役立つかについて議論する。
論文参考訳（メタデータ） (2022-11-21T17:48:44Z)
Modeling Protein Using Large-scale Pretrain Language Model [12.568452480689578]
学際的な研究者は、大規模な生物学的データセットをモデル化するためにディープラーニング手法を活用し始めている。自然言語とタンパク質配列の類似性から着想を得て,進化的タンパク質配列をモデル化するために大規模言語モデルを用いた。本モデルでは,進化規模個別配列の事前学習から進化情報を正確に捉えることができる。
論文参考訳（メタデータ） (2021-08-17T04:13:11Z)
Molecular modeling with machine-learned universal potential functions [15.138489177130511]
ニューラルネットワークは、エネルギーポテンシャル関数のための普遍近似器の訓練に利用できることを示す。大規模結晶構造において,滑らかで微分可能で予測可能なポテンシャル関数を訓練することができた。
論文参考訳（メタデータ） (2021-03-06T17:36:39Z)
Physics-Integrated Variational Autoencoders for Robust and Interpretable Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文参考訳（メタデータ） (2021-02-25T20:28:52Z)
Hierarchical, rotation-equivariant neural networks to select structural models of protein complexes [6.092214762701847]
タンパク質複合体の正確なモデルを特定するために,全ての原子の3次元位置から直接学習する機械学習手法を提案する。我々のネットワークは、考えられるモデルの大きな集合のうち、正確な構造モデルの同定を大幅に改善する。
論文参考訳（メタデータ） (2020-06-05T20:17:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。