論文の概要: IMG2SMI: Translating Molecular Structure Images to Simplified
Molecular-input Line-entry System
- arxiv url: http://arxiv.org/abs/2109.04202v1
- Date: Fri, 3 Sep 2021 19:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-12 11:17:33.330357
- Title: IMG2SMI: Translating Molecular Structure Images to Simplified
Molecular-input Line-entry System
- Title(参考訳): IMG2SMI:分子構造画像から分子インプットラインエントリーシステムへの変換
- Authors: Daniel Campos, Heng Ji
- Abstract要約: 我々は、画像特徴抽出にDeep Residual Networksを利用するモデルIGG2SMIと、分子記述生成にエンコーダ・デコーダ・トランスフォーマ層を導入する。
IMG2SMIは、分子MACCS Fingerprint Tanimoto similarityによって測定された分子類似性予測において、OSRA系システムよりも163%優れていた。
また、分子記述生成のための8100万分子を含む新しい分子予測データセットもリリースした。
- 参考スコア(独自算出の注目度): 29.946393284884778
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Like many scientific fields, new chemistry literature has grown at a
staggering pace, with thousands of papers released every month. A large portion
of chemistry literature focuses on new molecules and reactions between
molecules. Most vital information is conveyed through 2-D images of molecules,
representing the underlying molecules or reactions described. In order to
ensure reproducible and machine-readable molecule representations, text-based
molecule descriptors like SMILES and SELFIES were created. These text-based
molecule representations provide molecule generation but are unfortunately
rarely present in published literature. In the absence of molecule descriptors,
the generation of molecule descriptors from the 2-D images present in the
literature is necessary to understand chemistry literature at scale. Successful
methods such as Optical Structure Recognition Application (OSRA), and
ChemSchematicResolver are able to extract the locations of molecules structures
in chemistry papers and infer molecular descriptions and reactions. While
effective, existing systems expect chemists to correct outputs, making them
unsuitable for unsupervised large-scale data mining. Leveraging the task
formulation of image captioning introduced by DECIMER, we introduce IMG2SMI, a
model which leverages Deep Residual Networks for image feature extraction and
an encoder-decoder Transformer layers for molecule description generation.
Unlike previous Neural Network-based systems, IMG2SMI builds around the task of
molecule description generation, which enables IMG2SMI to outperform OSRA-based
systems by 163% in molecule similarity prediction as measured by the molecular
MACCS Fingerprint Tanimoto Similarity. Additionally, to facilitate further
research on this task, we release a new molecule prediction dataset. including
81 million molecules for molecule description generation
- Abstract(参考訳): 多くの科学分野と同様に、新しい化学文献は停滞するペースで成長し、毎月何千もの論文が発行されている。
化学文学の大部分は新しい分子と分子間の反応に焦点を当てている。
ほとんどの重要な情報は分子の2次元イメージを通して伝達され、基礎となる分子や反応を表す。
再現性と機械可読性の分子表現を保証するため、SMILESやSELFIESのようなテキストベースの分子記述子が作成された。
これらのテキストベースの分子表現は分子生成を提供するが、残念ながら出版文献にはほとんど存在しない。
分子ディスクリプタが存在しない場合、文献に存在する2次元画像から分子ディスクリプタを生成することは化学文献を大規模に理解するには必要である。
光学構造認識アプリケーション (OSRA) やケムスケマティックリゾルバー (ChemSchematicResolver) は化学論文中の分子構造の位置を抽出し、分子の記述や反応を推測することができる。
有効ではあるが、既存のシステムは化学者が出力を補正することを期待しており、教師なしの大規模データマイニングには適さない。
本稿では,DeCIMER が導入した画像キャプションのタスク定式化を活用し,画像特徴抽出にDeep Residual Networks を,分子記述生成に Encoder-Decoder Transformer 層を利用するモデル IMG2SMI を導入する。
IMG2SMIは従来のニューラルネットワークベースのシステムとは異なり、分子記述生成のタスクを中心に構築されており、IMG2SMIは分子MACCSフィンガープリント・タニモト類似性によって測定された分子類似性予測において、OSRAベースのシステムよりも163%向上する。
さらに,この課題のさらなる研究を促進するために,分子予測データセットを新たにリリースする。
分子記述生成のための 8100万の分子を含む
関連論文リスト
- UniMoT: Unified Molecule-Text Language Model with Discrete Token Representation [35.51027934845928]
トークン化アーキテクチャを採用した統一分子テキストLLMであるUniMoTを紹介する。
ベクトル量子化駆動型トークン化器は、分子を因果依存性を持つ分子トークンの配列に変換する。
UniMoTは、分子間テキストとテキスト間タスクの両方を実行するマルチモーダル・ジェネラリストとして登場した。
論文 参考訳(メタデータ) (2024-08-01T18:31:31Z) - SMiCRM: A Benchmark Dataset of Mechanistic Molecular Images [0.8192907805418583]
本稿では,アロープッシングアノテーションを用いた化学分子の機械認識能力をベンチマークするためのデータセットを提案する。
このデータセットには、各画像に対する機械可読な分子アイデンティティと、化学反応中に電子の流れを示す機械的矢印が含まれている。
論文 参考訳(メタデータ) (2024-07-25T18:52:10Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Molecular Identification from AFM images using the IUPAC Nomenclature
and Attribute Multimodal Recurrent Neural Networks [0.0]
本稿では,この課題に深層学習技術を用いて対処する戦略を提案する。
従来の分類法に従って有限個の分子を同定する代わりに、分子の同定を画像キャプション問題として定義する。
3D-AFM画像スタックを入力として、未知分子の構造と構成を識別できる2つのマルチモーダルリカレントニューラルネットワークからなるアーキテクチャを設計する。
ニューラルネットワークは、IUPAC命名規則に従って各分子の名前を提供するように訓練されている。
論文 参考訳(メタデータ) (2022-05-01T11:39:32Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - MolCLR: Molecular Contrastive Learning of Representations via Graph
Neural Networks [11.994553575596228]
MolCLRは、大規模なラベルなしの分子データセットのための自己監視学習フレームワークです。
原子マスキング、結合除去、サブグラフ除去の3つの新しい分子グラフ増強法を提案する。
提案手法は,多くの挑戦的データセットに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-02-19T17:35:18Z) - Augmenting Molecular Images with Vector Representations as a
Featurization Technique for Drug Classification [4.873362301533825]
本稿では,分子画像だけでは含まれない,あるいは容易に理解できない情報を符号化するバイナリベクトルを付加した分子画像の作成を提案する。
HIVウイルスを阻害すると41,127個の分子がラベル付けされたパンデ研究所で公表されたHIVデータセット上で,本手法を試験した。
論文 参考訳(メタデータ) (2020-08-09T04:26:16Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。