論文の概要: BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature
- arxiv url: http://arxiv.org/abs/2604.21508v1
- Date: Thu, 23 Apr 2026 10:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.437376
- Title: BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature
- Title(参考訳): BioMiner: 文献からのタンパク質-リガンド生物活性データの自動マイニングのためのマルチモーダルシステム
- Authors: Jiaxian Yan, Jintao Zhu, Yuhang Yang, Qi Liu, Kai Zhang, Zaixi Zhang, Xukai Liu, Boyan Zhang, Kaiyuan Gao, Jinchuan Xiao, Enhong Chen,
- Abstract要約: 生物活性データ抽出のためのマルチモーダル抽出フレームワークであるBioMinerを紹介する。
BioMinerでは、生物活性セマンティクスは直接推論によって推測され、化学構造は化学構造に基づく視覚的セマンティクス推論パラダイムによって解決される。
厳密な評価と方法開発のために,500の出版物から得られた16,457の生物活性成分からなるベンチマークを構築した。
- 参考スコア(独自算出の注目度): 53.894504720119805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein-ligand bioactivity data published in the literature are essential for drug discovery, yet manual curation struggles to keep pace with rapidly growing literature. Automated bioactivity extraction remains challenging because it requires not only interpreting biochemical semantics distributed across text, tables, and figures, but also reconstructing chemically exact ligand structures (e.g., Markush structures). To address this bottleneck, we introduce BioMiner, a multi-modal extraction framework that explicitly separates bioactivity semantic interpretation from ligand structure construction. Within BioMiner, bioactivity semantics are inferred through direct reasoning, while chemical structures are resolved via a chemical-structure-grounded visual semantic reasoning paradigm, in which multi-modal large language models operate on chemically grounded visual representations to infer inter-structure relationships, and exact molecular construction is delegated to domain chemistry tools. For rigorous evaluation and method development, we further establish BioVista, a comprehensive benchmark comprising 16,457 bioactivity entries curated from 500 publications. BioMiner validates its extraction ability and provides a quantitative baseline, achieving an F1 score of 0.32 for bioactivity triplets. BioMiner's practical utility is demonstrated via three applications: (1) extracting 82,262 data from 11,683 papers to build a pre-training database that improves downstream models performance by 3.9%; (2) enabling a human-in-the-loop workflow that doubles the number of high-quality NLRP3 bioactivity data, helping 38.6% improvement over 28 QSAR models and identification of 16 hit candidates with novel scaffolds; and (3) accelerating protein-ligand complex bioactivity annotation, achieving a 5.59-fold speed increase and 5.75% accuracy improvement over manual workflows in PoseBusters dataset.
- Abstract(参考訳): この文献で公表されたタンパク質リガンド生物活性データは、薬物発見には不可欠であるが、手作業によるキュレーションは、急速に成長する文献のペースを維持するのに苦労している。
自動生物活性抽出は、テキスト、表、図形に分散する生化学的意味論を解釈するだけでなく、化学的に正確なリガンド構造(例えばマルコシュ構造)を再構築する必要があるため、依然として困難である。
このボトルネックに対処するために,生物活性の意味的解釈をリガンド構造から明確に分離するマルチモーダル抽出フレームワークであるBioMinerを紹介した。
BioMiner内では、生物活性のセマンティクスは直接推論によって推測され、化学構造は化学構造に基づく視覚的セマンティクスの推論パラダイムによって解決される。
厳密な評価と方法開発のために,500の出版物から収集した16,457の生物活性成分からなる総合的なベンチマークであるBioVistaを更に確立する。
BioMinerはその抽出能力を検証し、定量ベースラインを提供し、生物活性三つ子に対するF1スコア0.32を達成する。
1)11,683枚の論文から82,262個のデータを抽出して、ダウンストリームモデルのパフォーマンスを3.9%向上させる事前トレーニングデータベースの構築、(2)高品質なNLRP3バイオアクティビティデータを2倍にし、28のQSARモデルの38.6%の改善と16のヒット候補の識別、(3)タンパク質リガンド複合バイオアクティビティアノテーションの加速、5.59倍のスピード向上と5.75%の精度向上を実現する。
関連論文リスト
- BioChemInsight: An Open-Source Toolkit for Automated Identification and Recognition of Optical Chemical Structures and Activity Data in Scientific Publications [25.764592266678132]
既存の光学化学構造認識ツールは、分子構造と生体活性プロファイルを自律的に関連付けることができない。
BioChemInsightは、DECIMERとMolVecを統合したオープンソースのパイプラインで、化学構造認識、Qwen2.5-VL-32B、生体活性抽出と単位正規化のためのPaddleOCRである。
システムは利用可能なSARデータセットを生成し、データ前処理時間を数週間から数時間に短縮する。
論文 参考訳(メタデータ) (2025-04-12T04:56:44Z) - BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。
BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文 参考訳(メタデータ) (2024-04-29T05:40:08Z) - BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning [77.90250740041411]
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。
論文 参考訳(メタデータ) (2024-02-27T12:43:09Z) - BioT5: Enriching Cross-modal Integration in Biology with Chemical
Knowledge and Natural Language Associations [54.97423244799579]
$mathbfBioT5$は、化学知識と自然言語の関連性によって生物学のクロスモーダルな統合を強化する事前学習フレームワークである。
$mathbfBioT5$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。
論文 参考訳(メタデータ) (2023-10-11T07:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。