Fugu-MT 論文翻訳(概要): BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model

論文の概要: BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model

arxiv url: http://arxiv.org/abs/2505.23579v1
Date: Thu, 29 May 2025 15:49:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.956874
Title: BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model
Title（参考訳）: BioReason:DNA-LLMモデルにおけるマルチモーダル生物推論のインセンティブ
Authors: Adibvafa Fallahpour, Andrew Magnuson, Purav Gupta, Shihao Ma, Jack Naimer, Arnav Shah, Haonan Duan, Omar Ibrahim, Hani Goodarzi, Chris J. Maddison, Bo Wang,
Abstract要約: 我々は,DNA基盤モデルと大規模言語モデルを統合する先駆的アーキテクチャであるBioReasonを紹介する。 BioReasonの洗練された多段階推論は、教師付き微調整と強化学習によって開発されている。生物学的推論のベンチマークでは、BioReasonは強力な単一モダリティベースラインよりも平均15%のパフォーマンス向上を示している。
参考スコア（独自算出の注目度）: 12.596088399210581
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Unlocking deep, interpretable biological reasoning from complex genomic data is a major AI challenge hindering scientific discovery. Current DNA foundation models, despite strong sequence representation, struggle with multi-step reasoning and lack inherent transparent, biologically intuitive explanations. We introduce BioReason, a pioneering architecture that, for the first time, deeply integrates a DNA foundation model with a Large Language Model (LLM). This novel connection enables the LLM to directly process and reason with genomic information as a fundamental input, fostering a new form of multimodal biological understanding. BioReason's sophisticated multi-step reasoning is developed through supervised fine-tuning and targeted reinforcement learning, guiding the system to generate logical, biologically coherent deductions. On biological reasoning benchmarks including KEGG-based disease pathway prediction - where accuracy improves from 88% to 97% - and variant effect prediction, BioReason demonstrates an average 15% performance gain over strong single-modality baselines. BioReason reasons over unseen biological entities and articulates decision-making through interpretable, step-by-step biological traces, offering a transformative approach for AI in biology that enables deeper mechanistic insights and accelerates testable hypothesis generation from genomic data. Data, code, and checkpoints are publicly available at https://github.com/bowang-lab/BioReason
Abstract（参考訳）: 複雑なゲノムデータから、深く解釈可能な生物学的推論を解き放つことは、科学的な発見を妨げる主要なAI課題である。現在のDNA基盤モデルは、強い配列表現にもかかわらず、多段階の推論に苦慮し、透明で生物学的に直感的な説明が欠如している。本稿では,DNA基盤モデルをLLM(Large Language Model)と深く統合した先駆的アーキテクチャであるBioReasonを紹介する。この新たな接続により、LLMはゲノム情報を基本的な入力として直接処理し、推論し、新しい形態のマルチモーダル生物学的理解を育むことができる。 BioReasonの洗練された多段階推論は、教師付き微調整と目標とする強化学習によって開発され、システムを論理的かつ生物学的に整合性のある推論を生成するように誘導する。 KEGGベースの疾患経路予測(精度が88%から97%に向上する)を含む生物学的推論ベンチマークと、BioReasonは、強力な単一モダリティベースラインよりも平均15%のパフォーマンス向上を示す。 BioReasonは、見当たらない生物学的実体を理由として、解釈可能な、ステップバイステップの生物学的トレースを通じて意思決定を明確にし、生物学におけるAIの変革的アプローチを提供し、より深い機械的な洞察を可能にし、ゲノムデータからテスト可能な仮説生成を加速する。データ、コード、チェックポイントはhttps://github.com/bowang-lab/BioReasonで公開されている。

関連論文リスト

BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。 CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文参考訳（メタデータ） (2025-02-23T17:38:10Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文参考訳（メタデータ） (2024-11-10T16:40:27Z)
A Review of BioTree Construction in the Context of Information Fusion: Priors, Methods, Applications and Trends [41.740569399988644]
生物学的ツリー解析(BioTree)は生物学の基礎的なツールであり、進化と分化の探索を可能にする。伝統的な木構築法は、現代の生物学的データの複雑さとスケールの増大に対処する上で、課題に直面している。ディープラーニング(DL)の進歩は、生物学的事前知識とデータ駆動モデルとの融合を可能にすることによって、変革的な機会を提供する。
論文参考訳（メタデータ） (2024-10-07T08:00:41Z)
ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文参考訳（メタデータ） (2023-11-01T14:44:01Z)
Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文参考訳（メタデータ） (2023-10-23T13:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。