論文の概要: GGBound: A Genome-Grounded Agent for Microbial Life-Boundary Prediction
- arxiv url: http://arxiv.org/abs/2605.14442v1
- Date: Thu, 14 May 2026 06:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.101089
- Title: GGBound: A Genome-Grounded Agent for Microbial Life-Boundary Prediction
- Title(参考訳): GGBound: 微生物の生活境界予測のためのゲノムを取り巻くエージェント
- Authors: Hanbo Huang, Xuan Gong, Jing Wang, Lei Bai, Xiang Xiao, Weishu Zhao, Shiyu Liang,
- Abstract要約: 微生物株の生理的生活境界を特徴付けることは、バイオテクノロジーと生態学の中心である。
既存の計算手法では、生理的特性を独立した教師対象として扱うか、または静的エンコーダとして生物学的基礎モデルを扱う。
微生物のライフバウンダリ予測を統合ゲノム・生理的タスクとして定式化し,ツール拡張LDMエージェントで処理する。
- 参考スコア(独自算出の注目度): 16.245500767957697
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Characterizing the physiological life boundaries of microbial strains, including viable temperature, pH, salinity, substrate utilization, and morphology, is central to biotechnology and ecology, yet traditionally requires exhaustive in vitro screening. Existing computational approaches either treat physiological traits as isolated supervised targets or repurpose biological foundation models as static encoders, leaving the genotype-to-physiology gap largely unbridged. We formulate microbial life-boundary prediction as a unified genome-to-physiology task and address it with a genome-conditioned, tool-augmented LLM agent. To support this task, we curate a strain-centric benchmark from IJSEM, NCBI, and BacDive covering 1,525 strains and 6,448 instances across viability intervals, environmental optima, substrate utilization, categorical traits, and morphology. Architecturally, the agent injects frozen LucaOne genome embeddings into a Qwen backbone via lightweight token fusion, and reasons over a similarity-based RAG module and a Genome-scale Metabolic Model (GEM) perturbation tool. We optimize the agent through a three-stage pipeline of gene-text alignment, agentic SFT on distilled trajectories, and GRPO with a novel counterfactual gene-grounding reward that reinforces the policy only when the authentic genome embedding causally improves correct-token generation relative to a zero-gene ablation. The resulting 4B-parameter agent matches or surpasses substantially larger frontier LLMs, with ablations confirming that genome-token fusion, dynamic tool use, and the counterfactual reward each yield distinct, significant gains.
- Abstract(参考訳): 生存温度、pH、塩分濃度、基質利用、形態などの微生物株の生理的生活境界を特徴付けることは、バイオテクノロジーと生態学の中心であるが、伝統的にin vitroで徹底的なスクリーニングを必要とする。
既存の計算手法では、生理的特性を独立した教師対象として扱うか、または生物学的基盤モデルを静的エンコーダとして再利用する。
微生物のライフバウンダリ予測を統合ゲノムから生理的タスクとして定式化し,ゲノム条件付きツール拡張LDMエージェントで処理する。
この課題を支援するため, IJSEM, NCBI, BacDiveから, 生存期間, 環境最適化, 基質利用, カテゴリー特性, 形態学の1,525株と6,448インスタンスの株中心ベンチマークをキュレートした。
構造的には、このエージェントは軽量なトークン融合を通じて、凍結したLucaOneゲノムをQwenのバックボーンに注入し、類似性に基づくRAGモジュールとGEM(Genome-scale Metabolic Model)摂動ツールに原因を与える。
我々は,遺伝子テキストアライメントの3段階パイプライン,蒸留トラジェクトリのエージェントSFT,およびGRPOを用いてエージェントを最適化する。
結果として生じる4Bパラメーター剤は、かなり大きなフロンティアLSMと一致するか、あるいは超える。
関連論文リスト
- Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - sc-OTGM: Single-Cell Perturbation Modeling by Solving Optimal Mass Transport on the Manifold of Gaussian Mixtures [0.9674145073701153]
sc-OTGMは、scRNAseqデータが生成される誘導バイアスに基づく教師なしモデルである。
sc-OTGMは細胞状態の分類、異なる遺伝子発現の解析、標的同定のための遺伝子ランキングに有効である。
また、下流遺伝子制御に対する単一遺伝子の摂動の影響を予測し、特定の細胞状態に条件付けられた合成scRNA-seqデータを生成する。
論文 参考訳(メタデータ) (2024-05-06T06:46:11Z) - FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics [46.189419603576084]
FGBERTは、タンパク質に基づく遺伝子表現を文脈認識トークン化剤として利用する、新しいメダゲノミクス事前訓練モデルである。
これは、遺伝子、機能、細菌、環境レベルにまたがる4つのレベルでのメダゲノミクスデータセットに優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-24T13:13:17Z) - Cancer-inspired Genomics Mapper Model for the Generation of Synthetic
DNA Sequences with Desired Genomics Signatures [0.0]
がんに触発されたゲノムマッパーモデル(CGMM)は、遺伝的アルゴリズム(GA)とディープラーニング(DL)の手法を組み合わせたものである。
我々はCGMMが、祖先や癌などの選択された表現型の合成ゲノムを生成できることを実証した。
論文 参考訳(メタデータ) (2023-05-01T07:16:40Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。