論文の概要: Bridging the Performance Gap between DETR and R-CNN for Graphical Object
Detection in Document Images
- arxiv url: http://arxiv.org/abs/2306.13526v1
- Date: Fri, 23 Jun 2023 14:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 12:26:59.930578
- Title: Bridging the Performance Gap between DETR and R-CNN for Graphical Object
Detection in Document Images
- Title(参考訳): 文書画像におけるグラフィカル物体検出のためのDECRとR-CNNのパフォーマンスギャップのブリッジ
- Authors: Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker, Marcus Liwicki
and Muhammad Zeshan Afzal
- Abstract要約: 本稿では,DTRとR-CNNのパフォーマンスギャップを図形オブジェクト検出のために橋渡しする重要なステップを踏む。
異なる方法でオブジェクトクエリを変更し、ポイントを使用し、アンカーボックスを使用し、パフォーマンスを高めるためにアンカーに正と負のノイズを追加します。
我々は、PubTables、TableBank、NTable、PubLaynetの4つのグラフデータセットに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 11.648151981111436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper takes an important step in bridging the performance gap between
DETR and R-CNN for graphical object detection. Existing graphical object
detection approaches have enjoyed recent enhancements in CNN-based object
detection methods, achieving remarkable progress. Recently, Transformer-based
detectors have considerably boosted the generic object detection performance,
eliminating the need for hand-crafted features or post-processing steps such as
Non-Maximum Suppression (NMS) using object queries. However, the effectiveness
of such enhanced transformer-based detection algorithms has yet to be verified
for the problem of graphical object detection. Essentially, inspired by the
latest advancements in the DETR, we employ the existing detection transformer
with few modifications for graphical object detection. We modify object queries
in different ways, using points, anchor boxes and adding positive and negative
noise to the anchors to boost performance. These modifications allow for better
handling of objects with varying sizes and aspect ratios, more robustness to
small variations in object positions and sizes, and improved image
discrimination between objects and non-objects. We evaluate our approach on the
four graphical datasets: PubTables, TableBank, NTable and PubLaynet. Upon
integrating query modifications in the DETR, we outperform prior works and
achieve new state-of-the-art results with the mAP of 96.9\%, 95.7\% and 99.3\%
on TableBank, PubLaynet, PubTables, respectively. The results from extensive
ablations show that transformer-based methods are more effective for document
analysis analogous to other applications. We hope this study draws more
attention to the research of using detection transformers in document image
analysis.
- Abstract(参考訳): 本稿では,DTRとR-CNNのパフォーマンスギャップを図形オブジェクト検出のために橋渡しする重要なステップを踏む。
既存のグラフィカルオブジェクト検出アプローチは、CNNベースのオブジェクト検出手法の最近の拡張を享受し、目覚ましい進歩を遂げた。
近年、変圧器を用いた検出器は汎用オブジェクト検出性能を大幅に向上させ、オブジェクトクエリを用いた非最大抑制(nms)などの手作り機能や後処理ステップの必要性をなくしている。
しかし,このような改良されたトランスフォーマーベース検出アルゴリズムの有効性は,グラフィカルオブジェクト検出の問題に対してはまだ検証されていない。
基本的に、DETRの最新の進歩に触発されて、グラフィカルオブジェクト検出にわずかな修正を加えた既存の検出変換器を採用した。
ポイントやアンカーボックス、アンカーに正のノイズや負のノイズを追加してパフォーマンスを向上させるなど、さまざまな方法でオブジェクトクエリを修正します。
これらの変更により、サイズやアスペクト比の異なるオブジェクトの処理性が向上し、オブジェクトの位置やサイズの小さなバリエーションに対する堅牢性が向上し、オブジェクトと非オブジェクトのイメージ識別が向上した。
我々は、PubTables、TableBank、NTable、PubLaynetの4つのグラフデータセットに対するアプローチを評価した。
detrにクエリの変更を統合することで、以前の作業よりも優れ、tablebank、publaynet、pubtablesでそれぞれ96.9\%、95.7\%、99.3\%のマップで最新の結果が得られる。
その結果,変換器を用いた手法は,他のアプリケーションと類似した文書解析に有効であることが示唆された。
本研究は,文書画像解析における検出トランスフォーマの利用研究に注目が集まることを願っている。
関連論文リスト
- Small Object Detection by DETR via Information Augmentation and Adaptive
Feature Fusion [4.9860018132769985]
RT-DETRモデルは、リアルタイムオブジェクト検出では良好に動作するが、小さなオブジェクト検出精度では不十分である。
異なるレベルから各特徴マップに学習可能なパラメータを割り当てる適応的特徴融合アルゴリズムを提案する。
これにより、異なるスケールでオブジェクトの特徴をキャプチャするモデルの能力が向上し、小さなオブジェクトを検出する精度が向上する。
論文 参考訳(メタデータ) (2024-01-16T00:01:23Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Transformers in Small Object Detection: A Benchmark and Survey of
State-of-the-Art [34.077422623505804]
トランスフォーマーは、ほぼすべてのビデオや画像データセットにおいて、確立されたCNNベースの検出器を一貫して上回った。
小さなオブジェクトは、検出フレームワークにおいて最も難しいオブジェクトタイプの一つとして特定されている。
本研究は,小物体検出のための変圧器の開発研究を60回以上行った。
論文 参考訳(メタデータ) (2023-09-10T00:08:29Z) - Object Detection with Transformers: A Review [11.255962936937744]
本報告では, 従来のDETRモデルにおいて提案された21の進歩について概説する。
我々は、様々な検出変換器の比較分析を行い、その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
論文 参考訳(メタデータ) (2023-06-07T16:13:38Z) - Transformation-Invariant Network for Few-Shot Object Detection in Remote
Sensing Images [15.251042369061024]
FSOD(Few-shot Object Detection)は、トレーニングのために大量のラベル付きデータを頼りにしている。
リモートセンシング画像におけるオブジェクトのスケールと向きのバリエーションは、既存のFSOD法に重大な課題をもたらす。
特徴ピラミッドネットワークの統合と,クエリ機能向上のためのプロトタイプ機能の利用を提案する。
論文 参考訳(メタデータ) (2023-03-13T02:21:38Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Decoupled Adaptation for Cross-Domain Object Detection [69.5852335091519]
クロスドメインオブジェクト検出は、オブジェクト分類よりも難しい。
D-adaptは4つのクロスドメインオブジェクト検出タスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-10-06T08:43:59Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。