論文の概要: IIIT-AR-13K: A New Dataset for Graphical Object Detection in Documents
- arxiv url: http://arxiv.org/abs/2008.02569v1
- Date: Thu, 6 Aug 2020 10:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:20:18.504350
- Title: IIIT-AR-13K: A New Dataset for Graphical Object Detection in Documents
- Title(参考訳): iiit-ar-13k: ドキュメント内のグラフィカルオブジェクト検出のための新しいデータセット
- Authors: Ajoy Mondal, Peter Lipps, and C. V. Jawahar
- Abstract要約: このデータセットIIIT-AR-13kは、グラフィカルまたはページオブジェクトのバウンディングボックスを、公開の年次レポートに手動でアノテートすることで作成される。
グラフィカルオブジェクト検出のための手動アノテーション付きデータセットとしては最大である。
- 参考スコア(独自算出の注目度): 27.127537034521467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new dataset for graphical object detection in business
documents, more specifically annual reports. This dataset, IIIT-AR-13k, is
created by manually annotating the bounding boxes of graphical or page objects
in publicly available annual reports. This dataset contains a total of 13k
annotated page images with objects in five different popular categories -
table, figure, natural image, logo, and signature. It is the largest manually
annotated dataset for graphical object detection. Annual reports created in
multiple languages for several years from various companies bring high
diversity into this dataset. We benchmark IIIT-AR-13K dataset with two state of
the art graphical object detection techniques using Faster R-CNN [20] and Mask
R-CNN [11] and establish high baselines for further research. Our dataset is
highly effective as training data for developing practical solutions for
graphical object detection in both business documents and technical articles.
By training with IIIT-AR-13K, we demonstrate the feasibility of a single
solution that can report superior performance compared to the equivalent ones
trained with a much larger amount of data, for table detection. We hope that
our dataset helps in advancing the research for detecting various types of
graphical objects in business documents.
- Abstract(参考訳): ビジネス文書、特に年次レポートにグラフィカルなオブジェクト検出のための新しいデータセットを導入する。
このデータセットIIIT-AR-13kは、グラフィカルまたはページオブジェクトのバウンディングボックスを、公開の年次レポートに手動でアノテートすることで作成される。
このデータセットには合計で13kの注釈付きページイメージと5つの人気のあるカテゴリ、図形、自然画像、ロゴ、シグネチャのオブジェクトが含まれている。
これはグラフィカルオブジェクト検出のための最大の手動アノテーション付きデータセットである。
さまざまな企業から数年間、複数の言語で作成された年次レポートは、このデータセットに高い多様性をもたらす。
我々は、IIIT-AR-13Kデータセットを、Faster R-CNN [20] と Mask R-CNN [11] を用いたグラフィカルオブジェクト検出技術の2つの状態でベンチマークし、さらなる研究のために高いベースラインを確立する。
我々のデータセットは、ビジネス文書と技術論文の両方において、グラフィカルオブジェクト検出のための実用的なソリューションを開発するためのトレーニングデータとして非常に効果的である。
IIIT-AR-13Kでトレーニングすることで、テーブル検出のために、より大量のデータで訓練された同等のソリューションよりも優れたパフォーマンスを報告できる単一ソリューションの実現可能性を示す。
我々のデータセットは、ビジネス文書の様々な種類のグラフィカルなオブジェクトを検出する研究を進めるのに役立ちます。
関連論文リスト
- Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization [36.973388673687815]
RanLayNetは、自動的に割り当てられたラベルでリッチ化された合成ドキュメントデータセットである。
本研究では,データセットでトレーニングしたディープレイアウト識別モデルに対して,実際の文書のみをトレーニングしたモデルと比較して,性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-15T07:50:15Z) - Line Graphics Digitization: A Step Towards Full Automation [29.017383766914406]
5つの粗いカテゴリと10の細かいカテゴリのピクセルワイズアノテーションを含むLine Graphics (LG)データセットを提示する。
我々のデータセットは、異なる分野から450の文書から収集された数学図形の520の画像を網羅している。
提案するデータセットは、セマンティックセグメンテーションとオブジェクト検出という、2つの異なるコンピュータビジョンタスクをサポートすることができる。
論文 参考訳(メタデータ) (2023-07-05T07:08:58Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Tiny Object Tracking: A Large-scale Dataset and A Baseline [40.93697515531104]
大規模なビデオデータセットを作成し、合計217Kフレームの434のシーケンスを含む。
データ作成において、幅広い視点とシーンの複雑さをカバーするため、12の課題属性を考慮に入れます。
統合されたフレームワークで3段階の知識蒸留を行うMKDNet(Multilevel Knowledge Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-02-11T15:00:32Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in
High-Resolution Remote Sensing Imagery [21.9319970004788]
我々は,高分解能リモートセンシング画像において,100万以上のインスタンスと15,000以上の画像を含む新しいベンチマークデータセットを提案する。
FAIR1Mデータセットのすべてのオブジェクトは、指向境界ボックスによって5つのカテゴリと37のサブカテゴリに関してアノテートされます。
論文 参考訳(メタデータ) (2021-03-09T17:20:15Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Graphical Object Detection in Document Images [30.48863304419383]
文書画像中のグラフィカルオブジェクトをローカライズする「グラフィカルオブジェクト検出(Graphical Object Detection, GOD)」という、エンドツーエンドのトレーニング可能なディープラーニングベースのフレームワークを提案する。
我々のフレームワークはデータ駆動であり、文書画像内のグラフィカルなオブジェクトを見つけるのにメタデータを一切必要としない。
我々のモデルは最先端技術と比較して有望な結果をもたらす。
論文 参考訳(メタデータ) (2020-08-25T06:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。