論文の概要: SMiCRM: A Benchmark Dataset of Mechanistic Molecular Images
- arxiv url: http://arxiv.org/abs/2407.18338v1
- Date: Thu, 25 Jul 2024 18:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 15:09:00.977559
- Title: SMiCRM: A Benchmark Dataset of Mechanistic Molecular Images
- Title(参考訳): SMiCRM: メカニスティックな分子画像のベンチマークデータセット
- Authors: Ching Ting Leung, Yufan Chen, Hanyu Gao,
- Abstract要約: 本稿では,アロープッシングアノテーションを用いた化学分子の機械認識能力をベンチマークするためのデータセットを提案する。
このデータセットには、各画像に対する機械可読な分子アイデンティティと、化学反応中に電子の流れを示す機械的矢印が含まれている。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical chemical structure recognition (OCSR) systems aim to extract the molecular structure information, usually in the form of molecular graph or SMILES, from images of chemical molecules. While many tools have been developed for this purpose, challenges still exist due to different types of noises that might exist in the images. Specifically, we focus on the 'arrow-pushing' diagrams, a typical type of chemical images to demonstrate electron flow in mechanistic steps. We present Structural molecular identifier of Molecular images in Chemical Reaction Mechanisms (SMiCRM), a dataset designed to benchmark machine recognition capabilities of chemical molecules with arrow-pushing annotations. Comprising 453 images, it spans a broad array of organic chemical reactions, each illustrated with molecular structures and mechanistic arrows. SMiCRM offers a rich collection of annotated molecule images for enhancing the benchmarking process for OCSR methods. This dataset includes a machine-readable molecular identity for each image as well as mechanistic arrows showing electron flow during chemical reactions. It presents a more authentic and challenging task for testing molecular recognition technologies, and achieving this task can greatly enrich the mechanisitic information in computer-extracted chemical reaction data.
- Abstract(参考訳): 光学化学構造認識(OCSR)システムは、化学分子の画像から分子構造情報(通常は分子グラフまたはSMILES)を抽出することを目的としている。
この目的のために多くのツールが開発されているが、画像には様々な種類のノイズがあるため、依然として課題が存在する。
具体的には、機械的なステップで電子の流れを実証する典型的な化学画像である「狭プッシング」ダイアグラムに焦点を当てる。
本稿では, 化学反応機構(SMiCRM)における分子画像の構造分子識別子について述べる。
453枚の画像からなり、幅広い有機化学反応を網羅し、それぞれに分子構造と機械的な矢印が描かれている。
SMiCRMは、OCSRメソッドのベンチマークプロセスを強化するために、アノテーション付き分子画像の豊富なコレクションを提供する。
このデータセットには、各画像に対する機械可読な分子アイデンティティと、化学反応中に電子の流れを示す機械的矢印が含まれている。
これは、分子認識技術をテストするためのより正確で困難なタスクを示し、このタスクを達成することで、コンピュータで抽出した化学反応データにおけるメカニサイト情報を大幅に強化することができる。
関連論文リスト
- GraphXForm: Graph transformer for computer-aided molecular design with application to extraction [73.1842164721868]
本稿では,デコーダのみのグラフトランスフォーマアーキテクチャであるGraphXFormについて述べる。
液液抽出のための2つの溶媒設計課題について評価し,4つの最先端分子設計技術より優れていることを示した。
論文 参考訳(メタデータ) (2024-11-03T19:45:15Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Advancing Molecular Machine (Learned) Representations with Stereoelectronics-Infused Molecular Graphs [0.0]
分子グラフに量子化学的に豊富な情報を注入する新しい手法を立体電子効果により導入する。
立体電子相互作用の明示的な付加は分子機械学習モデルの性能を著しく向上させることを示す。
また, 学習された表現は, 従来は難解であったシステムに対して, ファクシブルなステレオエレクトロニクス評価を可能にすることを示す。
論文 参考訳(メタデータ) (2024-08-08T15:21:07Z) - Atom-Level Optical Chemical Structure Recognition with Limited Supervision [14.487346160322653]
本稿では,最先端性能を実現する新しい化学構造認識ツールを提案する。
従来の手法とは異なり、本手法は原子レベルの局所化を提供する。
我々のモデルは、SMILESの監督のみで原子レベルの実体検出を行い、OCSRを実行する最初のモデルである。
論文 参考訳(メタデータ) (2024-04-02T09:01:21Z) - Expanding Chemical Representation with k-mers and Fragment-based Fingerprints for Molecular Fingerprinting [4.588028371034407]
本研究では,サブストラクチャカウント,$k$-mers,Daylightのような指紋を組み合わせることで,SMILES文字列の化学構造の表現を拡大する手法を提案する。
本発明の統合方法は、識別力及び情報内容を高める包括的分子埋め込みを生成する。
論文 参考訳(メタデータ) (2024-03-28T21:36:07Z) - From molecules to scaffolds to functional groups: building context-dependent molecular representation via multi-channel learning [10.025809630976065]
本稿では,より堅牢で一般化可能な化学知識を学習する,新しい事前学習フレームワークを提案する。
提案手法は,種々の分子特性ベンチマークにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-11-05T23:47:52Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - An Equivariant Generative Framework for Molecular Graph-Structure
Co-Design [54.92529253182004]
分子グラフ構造アンダーラインCo設計のための機械学習ベースの生成フレームワークであるMollCodeを提案する。
MolCodeでは、3D幾何情報によって分子2Dグラフの生成が促進され、それによって分子3D構造の予測が導かれる。
分子設計における2次元トポロジーと3次元幾何は本質的に相補的な情報を含んでいることが明らかとなった。
論文 参考訳(メタデータ) (2023-04-12T13:34:22Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Graph-based Molecular Representation Learning [59.06193431883431]
分子表現学習(MRL)は、機械学習と化学科学を結びつけるための重要なステップである。
近年、MRLは、特に深層分子グラフ学習に基づく手法において、かなりの進歩を遂げている。
論文 参考訳(メタデータ) (2022-07-08T17:43:20Z) - IMG2SMI: Translating Molecular Structure Images to Simplified
Molecular-input Line-entry System [29.946393284884778]
我々は、画像特徴抽出にDeep Residual Networksを利用するモデルIGG2SMIと、分子記述生成にエンコーダ・デコーダ・トランスフォーマ層を導入する。
IMG2SMIは、分子MACCS Fingerprint Tanimoto similarityによって測定された分子類似性予測において、OSRA系システムよりも163%優れていた。
また、分子記述生成のための8100万分子を含む新しい分子予測データセットもリリースした。
論文 参考訳(メタデータ) (2021-09-03T19:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。