Fugu-MT 論文翻訳(概要): ChemScraper: Graphics Extraction, Molecular Diagram Parsing, and Annotated Data Generation for PDF Images

論文の概要: ChemScraper: Graphics Extraction, Molecular Diagram Parsing, and Annotated Data Generation for PDF Images

arxiv url: http://arxiv.org/abs/2311.12161v1
Date: Mon, 20 Nov 2023 20:27:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 03:12:20.250558
Title: ChemScraper: Graphics Extraction, Molecular Diagram Parsing, and Annotated Data Generation for PDF Images
Title（参考訳）: ChemScraper:PDF画像のためのグラフィック抽出、分子図解析、注釈付きデータ生成
Authors: Ayush Kumar Shah, Bryan Manrique Amador, Abhisek Dey, Ming Creekmore, Blake Ocampo, Scott Denmark, Richard Zanibbi
Abstract要約: 分子図の既存の視覚は、PNGのようなピクセルベースの画像を化学構造表現(SMILESなど)に変換する。本稿では,生来のデジタルPDF分子画像からシンボルを抽出し,簡単なグラフ変換を適用して,編集可能なChemDrawファイル(CDXML)の視覚構造と化学構造の両方をキャプチャする手法を提案する。 SMILES文字列を用いた標準ベンチマークとグラフベースのメトリクスとLgEvalを用いたエラーコンパイルを提供する新たな評価を行った。
参考スコア（独自算出の注目度）: 2.946747492685909
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Existing visual parsers for molecule diagrams translate pixel-based raster images such as PNGs to chemical structure representations (e.g., SMILES). However, PDFs created by word processors including \LaTeX{} and Word provide explicit locations and shapes for characters, lines, and polygons. We %introduce a method to extract symbols from born-digital PDF molecule images and then apply simple graph transformations to capture both visual and chemical structure in editable ChemDraw files (CDXML). Our fast ( PDF $\rightarrow$ visual graph $\rightarrow$ chemical graph ) pipeline does not require GPUs, Optical Character Recognition (OCR) or vectorization. We evaluate on standard benchmarks using SMILES strings, along with a novel evaluation that provides graph-based metrics and error compilation using LgEval. The geometric information in born-digital PDFs produces a highly accurate parser, motivating generating training data for visual parsers that recognize from raster images, with extracted graphics, visual structure, and chemical structure as annotations. To do this we render SMILES strings in Indigo, parse molecule structure, and then validate recognized structure to select correct files.
Abstract（参考訳）: 既存の分子図のビジュアルパーサーは、PNGのようなピクセルベースのラスタ画像を化学構造表現(SMILESなど)に変換する。しかし、 \LaTeX{} や Word などのワードプロセッサによって作成されたPDFは、文字、行、ポリゴンの明確な位置と形状を提供する。我々は、生来のデジタルPDF分子画像からシンボルを抽出し、簡単なグラフ変換を適用して編集可能なChemDrawファイル(CDXML)の視覚構造と化学構造の両方をキャプチャする手法を導入した。我々の高速(PDF $\rightarrow$ visual graph $\rightarrow$ chemical graph )パイプラインはGPU、光学文字認識(OCR)、ベクトル化を必要としない。 SMILES文字列を用いた標準ベンチマークとグラフベースのメトリクスとLgEvalを用いたエラーコンパイルを提供する新たな評価を行った。生来のデジタルPDFの幾何学的情報は高度に正確なパーサーを生成し、ラスタ画像から認識される視覚的パーサーのトレーニングデータを生成し、抽出されたグラフィック、視覚構造、化学構造をアノテーションとして生成する。これを行うために、IndigoでSMILES文字列を描画し、分子構造を解析し、認識された構造を確認して正しいファイルを選択する。

関連論文リスト

RxnCaption: Reformulating Reaction Diagram Parsing as Visual Prompt Guided Captioning [51.393018266721576]
化学反応図解析(RxnDP)のためのRxnCaptionフレームワークを提案する。本フレームワークは,従来の座標予測による解析処理を画像キャプション問題に再構成する。我々は,BBox and Index as Visual Prompt (BIVP) という,最先端の分子検出器である MolYOLO を用いて,分子境界ボックスやインデックスを直接入力画像上に描画する戦略を紹介した。
論文参考訳（メタデータ） (2025-11-04T09:08:44Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。 ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文参考訳（メタデータ） (2024-09-24T08:46:13Z)
Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文参考訳（メタデータ） (2024-02-29T12:18:43Z)
Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文参考訳（メタデータ） (2023-12-20T16:14:58Z)
Mixing Histopathology Prototypes into Robust Slide-Level Representations for Cancer Subtyping [19.577541771516124]
計算病理学の手法による全スライディング画像解析は、しばしば、スライドレベルラベルのみが利用可能なテッセル化ギガピクセル画像の処理に依存している。複数のインスタンス学習手法やトランスフォーマーモデルを適用することは、各イメージとして計算コストが高く、すべてのインスタンスを同時に処理する必要がある。 TheMixerは、特に大規模データセットにおいて、一般的なビジョントランスフォーマーの未探索の代替モデルである。
論文参考訳（メタデータ） (2023-10-19T14:15:20Z)
Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images [8.612889476601822]
我々は,ギガピクセルの病理組織像全体に対して,コントラスト整列画像とテキストモデルのゼロショット転送能力を開放するフレームワークMI-Zeroを提案する。 MI-Zeroは、複数のインスタンス学習の枠組みの下でゼロショット転送を再構成し、非常に大きな画像に対する推論の計算課題を克服する。
論文参考訳（メタデータ） (2023-06-13T15:05:24Z)
Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文参考訳（メタデータ） (2023-05-11T16:42:24Z)
SparseFormer: Sparse Visual Recognition via Limited Latent Tokens [30.494412497158237]
本稿では,人間のスパース認識をエンドツーエンドに模倣する新しい手法であるスパースホルダーを提案する。 SparseFormerは画像空間上の高密度な操作の多くを回避し、計算コストを大幅に削減する。 ImageNet分類ベンチマークデータセットの実験では、SparseFormerは標準モデルや確立されたモデルと同等のパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-04-07T17:59:58Z)
NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文参考訳（メタデータ） (2021-06-25T05:17:55Z)
Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文参考訳（メタデータ） (2021-05-29T08:39:57Z)
Cross-Scale Internal Graph Neural Network for Image Super-Resolution [147.77050877373674]
自然画像における非局所的な自己相似性は、画像修復に有効な先行研究として、よく研究されている。単一の画像超解像(SISR)の場合、既存のディープ非局所法のほとんどは、低解像度(LR)入力画像と同じ規模のパッチしか利用していない。これは、新しいクロススケールな内部グラフニューラルネットワーク(IGNN)を用いて実現される。
論文参考訳（メタデータ） (2020-06-30T10:48:40Z)
Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文参考訳（メタデータ） (2020-06-22T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。