論文の概要: ScanSSD: Scanning Single Shot Detector for Mathematical Formulas in PDF
Document Images
- arxiv url: http://arxiv.org/abs/2003.08005v1
- Date: Wed, 18 Mar 2020 01:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 10:17:55.767814
- Title: ScanSSD: Scanning Single Shot Detector for Mathematical Formulas in PDF
Document Images
- Title(参考訳): ScanSSD:PDF文書画像における数式用シングルショット検出器
- Authors: Parag Mali, Puneeth Kukkadapu, Mahshad Mahdavi, Richard Zanibbi
- Abstract要約: テキストラインからオフセットした数式を見つけるためのScanSSD(Scanning Single Shot Detector)を導入する。
600dpiのドキュメントページイメージが与えられたら、Single Shot Detectorは、スライドウィンドウを使用して複数のスケールで公式を見つける。
ScanSSDは精度の高い公式の文字を検出し、0.926 fスコアを取得し、全体的なリコール率の高い公式を検出する。
- 参考スコア(独自算出の注目度): 5.448283690603358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Scanning Single Shot Detector (ScanSSD) for locating math
formulas offset from text and embedded in textlines. ScanSSD uses only visual
features for detection: no formatting or typesetting information such as
layout, font, or character labels are employed. Given a 600 dpi document page
image, a Single Shot Detector (SSD) locates formulas at multiple scales using
sliding windows, after which candidate detections are pooled to obtain
page-level results. For our experiments we use the TFD-ICDAR2019v2 dataset, a
modification of the GTDB scanned math article collection. ScanSSD detects
characters in formulas with high accuracy, obtaining a 0.926 f-score, and
detects formulas with high recall overall. Detection errors are largely minor,
such as splitting formulas at large whitespace gaps (e.g., for variable
constraints) and merging formulas on adjacent textlines. Formula detection
f-scores of 0.796 (IOU $\geq0.5$) and 0.733 (IOU $\ge 0.75$) are obtained. Our
data, evaluation tools, and code are publicly available.
- Abstract(参考訳): 本稿では,テキストからオフセットした数式をテキストラインに埋め込むScanning Single Shot Detector(ScanSSD)を提案する。
ScanSSDは検出に視覚的機能のみを使用し、レイアウト、フォント、文字ラベルなどのフォーマットやタイプセット情報を使用しない。
600dpiのドキュメントページイメージが与えられた場合、Single Shot Detector (SSD) はスライドウィンドウを使用して複数のスケールで公式を見つけ、次に候補検出をプールしてページレベルの結果を得る。
実験では, TFD-ICDAR2019v2データセットを用いた。
ScanSSDは精度の高い公式の文字を検出し、0.926 fスコアを取得し、全体的なリコール率の高い公式を検出する。
例えば、大きな空白ギャップ(変数の制約など)で式を分割したり、隣接するテキストラインで式をマージしたりするなどである。
式検出f-スコアは 0.796 (iou $\geq0.5$) と 0.733 (iou $\ge 0.75$) である。
私たちのデータ、評価ツール、コードは公開されています。
関連論文リスト
- ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing [2.806036757331682]
本稿では,デジタルPDFプリミティブを入力として利用する新しいモデルを提案する。
モデルは高速で正確であり、光学文字認識(OCR)やベクトル化を必要としない。
画像のアノテートにパーシングを使用し、画像中の分子を認識するために新しいマルチタスクニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2023-11-20T20:27:42Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text
via Conditional Probability Curvature [36.31281981509264]
大規模言語モデル(LLM)は、流動的でコジェントなコンテンツを生成する能力を示している。
信頼できるAIシステムを構築するためには、マシン生成コンテンツと人間によるコンテンツとを区別することが不可欠である。
Fast-DetectGPTは、ディテクターGPTの摂動ステップを、より効率的なサンプリングステップで置き換える最適化されたゼロショット検出器である。
論文 参考訳(メタデータ) (2023-10-08T11:41:28Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting [11.705454066278898]
本稿では,新しい検出非依存のエンド・ツー・エンド認識フレームワークDEERを提案する。
提案手法は,検出モジュールと認識モジュール間の密接な依存関係を低減する。
通常のテキストスポッティングベンチマークと任意の形のテキストスポッティングベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T02:41:05Z) - Cleaning Dirty Books: Post-OCR Processing for Previously Scanned Texts [4.773188087436866]
我々は,光学式文字認識(OCR)誤差の存在下での重複の問題を考察する。
プロジェクト・グーテンベルクのデータセットから19,347個のテキストを収集し,これらの誤りに対処する手法を提案する。
提案手法は,導入した誤差の6倍以上の誤差を補正することを示す。
論文 参考訳(メタデータ) (2021-10-22T17:33:17Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z) - DR-SPAAM: A Spatial-Attention and Auto-regressive Model for Person
Detection in 2D Range Data [81.06749792332641]
本研究では,異なるタイミングで得られたスキャンを組み合わせ,代替戦略を用いた人物検出ネットワークを提案する。
DR-SPAAMは、バックボーンネットワークから中間機能をテンプレートとして保持し、新しいスキャンが利用可能になったときにテンプレートをリカレントに更新する。
DROWデータセットでは,提案手法は既存の最先端技術よりも約4倍高速である。
論文 参考訳(メタデータ) (2020-04-29T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。