論文の概要: Graphical Object Detection in Document Images
- arxiv url: http://arxiv.org/abs/2008.10843v1
- Date: Tue, 25 Aug 2020 06:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 04:02:31.862507
- Title: Graphical Object Detection in Document Images
- Title(参考訳): 文書画像におけるグラフィカル物体検出
- Authors: Ranajit Saha and Ajoy Mondal and C. V. Jawahar
- Abstract要約: 文書画像中のグラフィカルオブジェクトをローカライズする「グラフィカルオブジェクト検出(Graphical Object Detection, GOD)」という、エンドツーエンドのトレーニング可能なディープラーニングベースのフレームワークを提案する。
我々のフレームワークはデータ駆動であり、文書画像内のグラフィカルなオブジェクトを見つけるのにメタデータを一切必要としない。
我々のモデルは最先端技術と比較して有望な結果をもたらす。
- 参考スコア(独自算出の注目度): 30.48863304419383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical elements: particularly tables and figures contain a visual summary
of the most valuable information contained in a document. Therefore,
localization of such graphical objects in the document images is the initial
step to understand the content of such graphical objects or document images. In
this paper, we present a novel end-to-end trainable deep learning based
framework to localize graphical objects in the document images called as
Graphical Object Detection (GOD). Our framework is data-driven and does not
require any heuristics or meta-data to locate graphical objects in the document
images. The GOD explores the concept of transfer learning and domain adaptation
to handle scarcity of labeled training images for graphical object detection
task in the document images. Performance analysis carried out on the various
public benchmark data sets: ICDAR-2013, ICDAR-POD2017,and UNLV shows that our
model yields promising results as compared to state-of-the-art techniques.
- Abstract(参考訳): 図形要素:特に表や図形は、文書に含まれる最も価値のある情報の視覚的な要約を含む。
したがって、文書画像中のそのようなグラフィカルオブジェクトのローカライズは、そのようなグラフィカルオブジェクトや文書画像の内容を理解するための最初のステップである。
本稿では,ドキュメントイメージ内のグラフィカルオブジェクトをローカライズするための,エンドツーエンドのトレーニング可能なディープラーニングフレームワークであるgraphical object detection(god)を提案する。
私たちのフレームワークはデータ駆動で、ドキュメントイメージ内のグラフィカルオブジェクトを見つけるのにヒューリスティックやメタデータは必要ありません。
GODは、文書画像におけるグラフィカルオブジェクト検出タスクのためのラベル付きトレーニング画像の不足に対応するために、転送学習とドメイン適応の概念を探求する。
ICDAR-2013, ICDAR-POD2017, UNLV など, 各種公開ベンチマークデータセットの性能解析を行った結果, 現状技術と比較して有望な結果が得られた。
関連論文リスト
- GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - CiteTracker: Correlating Image and Text for Visual Tracking [114.48653709286629]
我々は、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを記述テキストに変換するテキスト生成モジュールを開発する。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
論文 参考訳(メタデータ) (2023-08-22T09:53:12Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Line Graphics Digitization: A Step Towards Full Automation [29.017383766914406]
5つの粗いカテゴリと10の細かいカテゴリのピクセルワイズアノテーションを含むLine Graphics (LG)データセットを提示する。
我々のデータセットは、異なる分野から450の文書から収集された数学図形の520の画像を網羅している。
提案するデータセットは、セマンティックセグメンテーションとオブジェクト検出という、2つの異なるコンピュータビジョンタスクをサポートすることができる。
論文 参考訳(メタデータ) (2023-07-05T07:08:58Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - CanvasVAE: Learning to Generate Vector Graphic Documents [1.8478165393315746]
オンラインサービスからデザインテンプレートのデータセットを用いて,ベクトルグラフィック文書の生成モデルを学習する。
実験では, CanvasVAE というモデルがベクトル図形文書生成の強力な基盤となることを示す。
論文 参考訳(メタデータ) (2021-08-03T02:14:25Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。