論文の概要: Literature Mining System for Nutraceutical Biosynthesis: From AI Framework to Biological Insight
- arxiv url: http://arxiv.org/abs/2512.22225v1
- Date: Tue, 23 Dec 2025 03:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.90734
- Title: Literature Mining System for Nutraceutical Biosynthesis: From AI Framework to Biological Insight
- Title(参考訳): 栄養生合成のための文学マイニングシステム:AIフレームワークから生物学的知見へ
- Authors: Xinyang Sun, Nipon Sarmah, Miao Guo,
- Abstract要約: 本研究では,大規模言語モデル(LLM)を用いたドメイン適応システムを提案する。
このシステムは複数の構成で堅牢な性能を示しており、DeepSeekV3はLLaMA2よりも精度が高い。
その結果,コリネバクテリウムグルタミカム,Bacillus coli,subtilisなど,単培養系および共培養系において有意な微生物多様性が認められた。
- 参考スコア(独自算出の注目度): 1.9966419762834917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The extraction of structured knowledge from scientific literature remains a major bottleneck in nutraceutical research, particularly when identifying microbial strains involved in compound biosynthesis. This study presents a domain-adapted system powered by large language models (LLMs) and guided by advanced prompt engineering techniques to automate the identification of nutraceutical-producing microbes from unstructured scientific text. By leveraging few-shot prompting and tailored query designs, the system demonstrates robust performance across multiple configurations, with DeepSeekV3 outperforming LLaMA2 in accuracy, especially when domain-specific strain information is included. A structured and validated dataset comprising 35 nutraceutical-strain associations was generated, spanning amino acids, fibers, phytochemicals, and vitamins. The results reveal significant microbial diversity across monoculture and co-culture systems, with dominant contributions from Corynebacterium glutamicum, Escherichia coli, and Bacillus subtilis, alongside emerging synthetic consortia. This AI-driven framework not only enhances the scalability and interpretability of literature mining but also provides actionable insights for microbial strain selection, synthetic biology design, and precision fermentation strategies in the production of high-value nutraceuticals.
- Abstract(参考訳): 科学文献からの構造化された知識の抽出は、特に複合生合成に関わる微生物株の同定において、栄養学研究において大きなボトルネックとなっている。
本研究では,大規模言語モデル(LLM)を応用したドメイン適応型システムについて,非構造化科学テキストからの栄養素産生微生物の同定を自動化するため,高度に急進的な工学的手法によって指導された。
数発のプロンプトと調整されたクエリ設計を活用することで、DeepSeekV3はLLaMA2の精度、特にドメイン固有の歪情報を含む場合、複数の構成で堅牢なパフォーマンスを示す。
アミノ酸, 繊維, 植物化学, ビタミン類にまたがる35種の栄養・ストレス関係の構造化・検証データセットを作成した。
その結果,コリネバクテリウムグルタミカム,大腸菌,Bacillus subtilis,新生合成コンソーシアムなど,モノカルチャー系およびコカルチャー系において有意な微生物多様性が認められた。
このAI駆動のフレームワークは、文献採掘のスケーラビリティと解釈可能性を高めるだけでなく、微生物株の選択、合成生物学設計、高価値栄養成分の生産における精密発酵戦略に関する実用的な洞察を提供する。
関連論文リスト
- Rep3Net: An Approach Exploiting Multimodal Representation for Molecular Bioactivity Prediction [0.8049701904919515]
初期の薬物発見では、標的タンパク質に対する分子の生物活性予測が重要な役割を果たす。
本稿では,Rep3Netを提案する。Rep3Netは,記述子データだけでなく,空間情報や関係情報も含む統合型ディープラーニングアーキテクチャである。
本モデルにより,ポリ[ADP-リボース]ポリメラーゼ1データセット上での生物活性予測が得られた。
論文 参考訳(メタデータ) (2025-11-29T15:39:48Z) - PlantDeBERTa: An Open Source Language Model for Plant Science [0.0]
植物ストレス応答型文献から構造化知識を抽出する,高性能でオープンソースな言語モデルであるPlantDeBERTaを提案する。
本手法は,トランスフォーマーに基づくモデリングと規則強化された言語後処理とオントロジーに基づく実体正規化を組み合わせた手法である。
計算プラント科学における透明性の促進と学際的イノベーションの促進を目的として,本モデルが公開された。
論文 参考訳(メタデータ) (2025-06-10T15:24:03Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [55.74944165932666]
本稿では,生物配列の大規模学習データセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンス関連タスクをブリッジし、その汎用性と推論を強化する。
また,マルチオミクスタスクにおける現状のLLMの,専門訓練なしでの大幅な制限を強調した。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。