論文の概要: BioChemInsight: An Open-Source Toolkit for Automated Identification and Recognition of Optical Chemical Structures and Activity Data in Scientific Publications
- arxiv url: http://arxiv.org/abs/2504.10525v1
- Date: Sat, 12 Apr 2025 04:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:47.425811
- Title: BioChemInsight: An Open-Source Toolkit for Automated Identification and Recognition of Optical Chemical Structures and Activity Data in Scientific Publications
- Title(参考訳): BioChemInsight: 科学出版における光学化学構造と活動データの自動識別と認識のためのオープンソースツールキット
- Authors: Zhe Wang, Fangtian Fu, Wei Zhang, Lige Yan, Yan Meng, Jianping Wu, Hui Wu, Gang Xu, Si Chen,
- Abstract要約: 既存の光学化学構造認識ツールは、分子構造と生体活性プロファイルを自律的に関連付けることができない。
BioChemInsightは、DECIMERとMolVecを統合したオープンソースのパイプラインで、化学構造認識、Qwen2.5-VL-32B、生体活性抽出と単位正規化のためのPaddleOCRである。
システムは利用可能なSARデータセットを生成し、データ前処理時間を数週間から数時間に短縮する。
- 参考スコア(独自算出の注目度): 25.764592266678132
- License:
- Abstract: Automated extraction of chemical structures and their bioactivity data is crucial for accelerating drug discovery and enabling data-driven pharmaceutical research. Existing optical chemical structure recognition (OCSR) tools fail to autonomously associate molecular structures with their bioactivity profiles, creating a critical bottleneck in structure-activity relationship (SAR) analysis. Here, we present BioChemInsight, an open-source pipeline that integrates: (1) DECIMER Segmentation and MolVec for chemical structure recognition, (2) Qwen2.5-VL-32B for compound identifier association, and (3) PaddleOCR with Gemini-2.0-flash for bioactivity extraction and unit normalization. We evaluated the performance of BioChemInsight on 25 patents and 17 articles. BioChemInsight achieved 95% accuracy for tabular patent data (structure/identifier recognition), with lower accuracy in non-tabular patents (~80% structures, ~75% identifiers), plus 92.2 % bioactivity extraction accuracy. For articles, it attained >99% identifiers and 78-80% structure accuracy in non-tabular formats, plus 97.4% bioactivity extraction accuracy. The system generates ready-to-use SAR datasets, reducing data preprocessing time from weeks to hours while enabling applications in high-throughput screening and ML-driven drug design (https://github.com/dahuilangda/BioChemInsight).
- Abstract(参考訳): 化学構造とその生物活性データの自動抽出は、医薬品の発見を加速し、データ駆動の医薬品研究を可能にするために重要である。
既存の光学化学構造認識(OCSR)ツールは、分子構造と生体活性プロファイルを自律的に関連付けることができず、構造活性相関(SAR)解析において重要なボトルネックとなる。
本稿では,(1) 化学構造認識のためのDECIMERセグメンテーションとMollVec,(2) 複合識別子関連のためのQwen2.5-VL-32B,(3) 生物活性抽出と単位正規化のためのGemini-2.0-FlashとPaddleOCRを統合したオープンソースのパイプラインであるBioChemInsightについて述べる。
特許25件, 特許17件についてBioChemInsightの性能評価を行った。
BioChemInsightは、表形式の特許データ(構造/識別子認識)の95%の精度を達成し、非タブラル特許(80%構造、75%識別子)の低い精度と92.2%の生物活性抽出精度を達成した。
論文では、99%の識別子と78-80%の構造精度、97.4%の生物活性抽出精度を達成している。
システムは利用可能なSARデータセットを生成し、データの事前処理時間を数週間から数時間に短縮し、高スループットスクリーニングとML駆動のドラッグデザイン(https://github.com/dahuilangda/BioChemInsight)への応用を可能にする。
関連論文リスト
- Dumpling GNN: Hybrid GNN Enables Better ADC Payload Activity Prediction Based on Chemical Structure [53.76752789814785]
DumplingGNNは、化学構造に基づいてADCペイロードのアクティビティを予測するために特別に設計された、ハイブリッドなグラフニューラルネットワークアーキテクチャである。
DNAトポイソメラーゼIインヒビターに着目した包括的ADCペイロードデータセットで評価を行った。
特別なADCペイロードデータセットに対して、例外的な精度(91.48%)、感度95.08%)、特異性(97.54%)を示す。
論文 参考訳(メタデータ) (2024-09-23T17:11:04Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - BioBERT-based Deep Learning and Merged ChemProt-DrugProt for Enhanced Biomedical Relation Extraction [2.524192238862961]
我々のアプローチは、新しいマージ戦略を用いて、ChemProtとD薬局のデータセットを統合する。
本研究は, バイオメディカル研究と臨床実習における自動情報抽出の可能性を強調した。
論文 参考訳(メタデータ) (2024-05-28T21:34:01Z) - EnzChemRED, a rich enzyme chemistry relation extraction dataset [3.6124226106001]
EnzChemREDは1,210名の専門家によるPubMed抽象体から構成され、そこでは酵素と触媒する化学反応がアノテートされる。
EnzChemREDを用いた微調整済み言語モデルは、テキスト中のタンパク質や化学物質の言及を識別する能力を著しく向上させることができることを示す。
本稿では,EnzChemREDを微調整して,テキストから知識を抽出するエンド・ツー・エンド・エンドのパイプラインを作成する。
論文 参考訳(メタデータ) (2024-04-22T14:18:34Z) - BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning [77.90250740041411]
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善する数値トークン化技術など、いくつかの新機能が含まれている。
論文 参考訳(メタデータ) (2024-02-27T12:43:09Z) - BioT5: Enriching Cross-modal Integration in Biology with Chemical
Knowledge and Natural Language Associations [54.97423244799579]
$mathbfBioT5$は、化学知識と自然言語の関連性によって生物学のクロスモーダルな統合を強化する事前学習フレームワークである。
$mathbfBioT5$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。
論文 参考訳(メタデータ) (2023-10-11T07:57:08Z) - Machine Guided Discovery of Novel Carbon Capture Solvents [48.7576911714538]
機械学習は、材料開発における時間とリソースの負担を軽減するための有望な方法を提供する。
そこで我々は, 市販の酸性ガススクラップ式炭素捕捉装置に適合する新規な水性アミンを, エンドツーエンドで発見する「発見サイクル」を開発した。
予測プロセスは、材料パラメータの両方の実験に対して60%の精度を示し、外部テストセット上では1つのパラメータに対して80%の精度を示す。
論文 参考訳(メタデータ) (2023-03-24T18:32:38Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z) - AlphaFold Accelerates Artificial Intelligence Powered Drug Discovery:
Efficient Discovery of a Novel Cyclin-dependent Kinase 20 (CDK20) Small
Molecule Inhibitor [9.89420507558956]
我々はAlphaFoldを用いて、実験構造のない新規ターゲットの第一級ヒット分子の同定に成功した。
ターゲット選択後30日以内にKd値8.9 +/-1.6 uMのCDK20の分子ヒット化合物を同定した。
これはCDK20を標的とする最初の小さな分子であり、さらに重要なことは、初期の薬物発見におけるヒット同定プロセスにおけるAlphaFoldの応用の初めての実演である。
論文 参考訳(メタデータ) (2022-01-21T07:35:24Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z) - Biomedical named entity recognition using BERT in the machine reading
comprehension framework [16.320249089801884]
バイオメディカルな名前付きエンティティ認識(BioNER)を実現する新しい手法を提案する。
そこで我々は,BioNERタスクをシーケンスラベリング問題として扱う代わりに,機械読解問題として定式化する。
提案手法は,BC4CHEMD,BC5CDR-Chem,BC5CDR-Disease,NCBI-Disease,BC2GMおよびJNLPBAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2020-09-03T10:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。