論文の概要: ChemScraper: Graphics Extraction, Molecular Diagram Parsing, and
Annotated Data Generation for PDF Images
- arxiv url: http://arxiv.org/abs/2311.12161v1
- Date: Mon, 20 Nov 2023 20:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 03:12:20.250558
- Title: ChemScraper: Graphics Extraction, Molecular Diagram Parsing, and
Annotated Data Generation for PDF Images
- Title(参考訳): ChemScraper:PDF画像のためのグラフィック抽出、分子図解析、注釈付きデータ生成
- Authors: Ayush Kumar Shah, Bryan Manrique Amador, Abhisek Dey, Ming Creekmore,
Blake Ocampo, Scott Denmark, Richard Zanibbi
- Abstract要約: 分子図の既存の視覚は、PNGのようなピクセルベースの画像を化学構造表現(SMILESなど)に変換する。
本稿では,生来のデジタルPDF分子画像からシンボルを抽出し,簡単なグラフ変換を適用して,編集可能なChemDrawファイル(CDXML)の視覚構造と化学構造の両方をキャプチャする手法を提案する。
SMILES文字列を用いた標準ベンチマークとグラフベースのメトリクスとLgEvalを用いたエラーコンパイルを提供する新たな評価を行った。
- 参考スコア(独自算出の注目度): 2.946747492685909
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing visual parsers for molecule diagrams translate pixel-based raster
images such as PNGs to chemical structure representations (e.g., SMILES).
However, PDFs created by word processors including \LaTeX{} and Word provide
explicit locations and shapes for characters, lines, and polygons. We
%introduce a method to extract symbols from born-digital PDF molecule images
and then apply simple graph transformations to capture both visual and chemical
structure in editable ChemDraw files (CDXML). Our fast ( PDF $\rightarrow$
visual graph $\rightarrow$ chemical graph ) pipeline does not require GPUs,
Optical Character Recognition (OCR) or vectorization. We evaluate on standard
benchmarks using SMILES strings, along with a novel evaluation that provides
graph-based metrics and error compilation using LgEval. The geometric
information in born-digital PDFs produces a highly accurate parser, motivating
generating training data for visual parsers that recognize from raster images,
with extracted graphics, visual structure, and chemical structure as
annotations. To do this we render SMILES strings in Indigo, parse molecule
structure, and then validate recognized structure to select correct files.
- Abstract(参考訳): 既存の分子図のビジュアルパーサーは、PNGのようなピクセルベースのラスタ画像を化学構造表現(SMILESなど)に変換する。
しかし、 \LaTeX{} や Word などのワードプロセッサによって作成されたPDFは、文字、行、ポリゴンの明確な位置と形状を提供する。
我々は、生来のデジタルPDF分子画像からシンボルを抽出し、簡単なグラフ変換を適用して編集可能なChemDrawファイル(CDXML)の視覚構造と化学構造の両方をキャプチャする手法を導入した。
我々の高速(PDF $\rightarrow$ visual graph $\rightarrow$ chemical graph )パイプラインはGPU、光学文字認識(OCR)、ベクトル化を必要としない。
SMILES文字列を用いた標準ベンチマークとグラフベースのメトリクスとLgEvalを用いたエラーコンパイルを提供する新たな評価を行った。
生来のデジタルPDFの幾何学的情報は高度に正確なパーサーを生成し、ラスタ画像から認識される視覚的パーサーのトレーニングデータを生成し、抽出されたグラフィック、視覚構造、化学構造をアノテーションとして生成する。
これを行うために、IndigoでSMILES文字列を描画し、分子構造を解析し、認識された構造を確認して正しいファイルを選択する。
関連論文リスト
- Text-Based Reasoning About Vector Graphics [76.42082386029206]
本稿では,ベクトルグラフィックスに関するテキストベースの推論を行うVisually Descriptive Language Model (VDLM)を提案する。
プリマルビジュアル記述(PVD)による事前訓練言語モデルを用いたVDLMブリッジ
我々のフレームワークは、その不整合認識と推論プロセスにより、より良い解釈可能性を提供します。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - Transformer-Based UNet with Multi-Headed Cross-Attention Skip
Connections to Eliminate Artifacts in Scanned Documents [0.0]
Swin Transformerのバックボーンを使用したUNet構造の変更を行い、スキャンされたドキュメントの典型的なアーティファクトを削除する。
合成データのエラー率を最大53.9%削減したテキスト抽出品質の改善をアーカイブする。
論文 参考訳(メタデータ) (2023-06-05T12:12:23Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - SparseFormer: Sparse Visual Recognition via Limited Latent Tokens [30.494412497158237]
本稿では,人間のスパース認識をエンドツーエンドに模倣する新しい手法であるスパースホルダーを提案する。
SparseFormerは画像空間上の高密度な操作の多くを回避し、計算コストを大幅に削減する。
ImageNet分類ベンチマークデータセットの実験では、SparseFormerは標準モデルや確立されたモデルと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-04-07T17:59:58Z) - Squeeze flow of micro-droplets: convolutional neural network with
trainable and tunable refinement [0.0]
本論文の前半では,問題の基礎となる物理を定式化するための偏微分方程式について述べる。
このパッケージは、機械学習やコンピュータビジョンの分野で、自由でフレキシブルでスケーラブルな標準ベンチマークとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-11-16T17:22:46Z) - MolMiner: You only look once for chemical structure recognition [8.400423040504993]
MolMinerは、深層ニューラルネットワークを使って、ドキュメントから原子と結合要素を認識する。
我々は,4つのベンチマークデータセットに対して,最先端のパフォーマンスでソフトウェアを評価した。
論文 参考訳(メタデータ) (2022-05-23T03:16:19Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Cross-Scale Internal Graph Neural Network for Image Super-Resolution [147.77050877373674]
自然画像における非局所的な自己相似性は、画像修復に有効な先行研究として、よく研究されている。
単一の画像超解像(SISR)の場合、既存のディープ非局所法のほとんどは、低解像度(LR)入力画像と同じ規模のパッチしか利用していない。
これは、新しいクロススケールな内部グラフニューラルネットワーク(IGNN)を用いて実現される。
論文 参考訳(メタデータ) (2020-06-30T10:48:40Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。