論文の概要: ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing
- arxiv url: http://arxiv.org/abs/2311.12161v3
- Date: Fri, 26 Apr 2024 16:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 17:58:08.507755
- Title: ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing
- Title(参考訳): ChemScraper: 分子ダイアグラム解析のためのPDFグラフィックインストラクションの活用
- Authors: Ayush Kumar Shah, Bryan Manrique Amador, Abhisek Dey, Ming Creekmore, Blake Ocampo, Scott Denmark, Richard Zanibbi,
- Abstract要約: 本稿では,デジタルPDFプリミティブを入力として利用する新しいモデルを提案する。
モデルは高速で正確であり、解析やベクトル化を必要としない。
我々はSMILESと標準ベンチマークを用いて,自動エラーコンパイルをサポートする新しい評価プロトコルとともに,我々のプロトコルを評価する。
- 参考スコア(独自算出の注目度): 2.806036757331682
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most molecular diagram parsers recover chemical structure from raster images (e.g., PNGs). However, many PDFs include commands giving explicit locations and shapes for characters, lines, and polygons. We present a new parser that uses these born-digital PDF primitives as input. The parsing model is fast and accurate, and does not require GPUs, Optical Character Recognition (OCR), or vectorization. We use the parser to annotate raster images and then train a new multi-task neural network for recognizing molecules in raster images. We evaluate our parsers using SMILES and standard benchmarks, along with a novel evaluation protocol comparing molecular graphs directly that supports automatic error compilation and reveals errors missed by SMILES-based evaluation.
- Abstract(参考訳): ほとんどの分子図解析器は、ラスタ画像(例えば、PNGs)から化学構造を復元する。
しかし、多くのPDFには、文字、行、ポリゴンの明確な位置と形を示すコマンドが含まれている。
我々は、これらの誕生デジタルPDFプリミティブを入力として利用する新しいパーサを提案する。
解析モデルは高速で正確であり、GPU、光学文字認識(OCR)、ベクトル化を必要としない。
我々は,ラスター画像にアノテートするパーサーを用いて,ラスター画像中の分子を認識するために,新しいマルチタスクニューラルネットワークを訓練する。
SMILESと標準ベンチマークを用いて解析を行い、自動エラーコンパイルをサポートする分子グラフを直接比較し、SMILESによる評価で欠落したエラーを明らかにする新しい評価プロトコルについて述べる。
関連論文リスト
- Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - Mixing Histopathology Prototypes into Robust Slide-Level Representations
for Cancer Subtyping [19.577541771516124]
計算病理学の手法による全スライディング画像解析は、しばしば、スライドレベルラベルのみが利用可能なテッセル化ギガピクセル画像の処理に依存している。
複数のインスタンス学習手法やトランスフォーマーモデルを適用することは、各イメージとして計算コストが高く、すべてのインスタンスを同時に処理する必要がある。
TheMixerは、特に大規模データセットにおいて、一般的なビジョントランスフォーマーの未探索の代替モデルである。
論文 参考訳(メタデータ) (2023-10-19T14:15:20Z) - Visual Language Pretrained Multiple Instance Zero-Shot Transfer for
Histopathology Images [8.612889476601822]
我々は,ギガピクセルの病理組織像全体に対して,コントラスト整列画像とテキストモデルのゼロショット転送能力を開放するフレームワークMI-Zeroを提案する。
MI-Zeroは、複数のインスタンス学習の枠組みの下でゼロショット転送を再構成し、非常に大きな画像に対する推論の計算課題を克服する。
論文 参考訳(メタデータ) (2023-06-13T15:05:24Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - SparseFormer: Sparse Visual Recognition via Limited Latent Tokens [30.494412497158237]
本稿では,人間のスパース認識をエンドツーエンドに模倣する新しい手法であるスパースホルダーを提案する。
SparseFormerは画像空間上の高密度な操作の多くを回避し、計算コストを大幅に削減する。
ImageNet分類ベンチマークデータセットの実験では、SparseFormerは標準モデルや確立されたモデルと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-04-07T17:59:58Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Cross-Scale Internal Graph Neural Network for Image Super-Resolution [147.77050877373674]
自然画像における非局所的な自己相似性は、画像修復に有効な先行研究として、よく研究されている。
単一の画像超解像(SISR)の場合、既存のディープ非局所法のほとんどは、低解像度(LR)入力画像と同じ規模のパッチしか利用していない。
これは、新しいクロススケールな内部グラフニューラルネットワーク(IGNN)を用いて実現される。
論文 参考訳(メタデータ) (2020-06-30T10:48:40Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。