論文の概要: Towards End-to-End Semi-Supervised Table Detection with Semantic Aligned Matching Transformer
- arxiv url: http://arxiv.org/abs/2405.00187v1
- Date: Tue, 30 Apr 2024 20:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 17:06:33.159245
- Title: Towards End-to-End Semi-Supervised Table Detection with Semantic Aligned Matching Transformer
- Title(参考訳): セマンティック配向整合変換器を用いた端端端端端の半教師付きテーブル検出に向けて
- Authors: Tahira Shehzadi, Shalini Sarode, Didier Stricker, Muhammad Zeshan Afzal,
- Abstract要約: 文書画像内のテーブル検出は、テーブルの識別とローカライゼーションを含む文書処理において重要なタスクである。
ディープラーニングの最近の進歩は、このタスクの精度を大幅に向上させたが、それでも効果的なトレーニングには大きなラベル付きデータセットに依存している。
本稿では, SAM-DETRを用いた半教師付きアプローチを提案する。
- 参考スコア(独自算出の注目度): 12.042768320132694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table detection within document images is a crucial task in document processing, involving the identification and localization of tables. Recent strides in deep learning have substantially improved the accuracy of this task, but it still heavily relies on large labeled datasets for effective training. Several semi-supervised approaches have emerged to overcome this challenge, often employing CNN-based detectors with anchor proposals and post-processing techniques like non-maximal suppression (NMS). However, recent advancements in the field have shifted the focus towards transformer-based techniques, eliminating the need for NMS and emphasizing object queries and attention mechanisms. Previous research has focused on two key areas to improve transformer-based detectors: refining the quality of object queries and optimizing attention mechanisms. However, increasing object queries can introduce redundancy, while adjustments to the attention mechanism can increase complexity. To address these challenges, we introduce a semi-supervised approach employing SAM-DETR, a novel approach for precise alignment between object queries and target features. Our approach demonstrates remarkable reductions in false positives and substantial enhancements in table detection performance, particularly in complex documents characterized by diverse table structures. This work provides more efficient and accurate table detection in semi-supervised settings.
- Abstract(参考訳): 文書画像内のテーブル検出は、テーブルの識別とローカライゼーションを含む文書処理において重要なタスクである。
ディープラーニングの最近の進歩は、このタスクの精度を大幅に向上させたが、それでも効果的なトレーニングのために、大きなラベル付きデータセットに大きく依存している。
いくつかの半監督的なアプローチがこの課題を克服するために現れており、しばしばCNNベースの検出器とアンカーの提案、非最大抑圧(NMS)のような後処理技術を用いている。
しかし、近年のこの分野の進歩はトランスフォーマーベースの技術に焦点を移し、NMSの必要性を排除し、オブジェクトクエリやアテンションメカニズムを強調している。
従来の研究は、オブジェクトクエリの品質の精細化と注意機構の最適化という、トランスフォーマーベースの検出器を改善するための2つの重要な領域に焦点を当ててきた。
しかし、オブジェクトクエリの増加は冗長性を導入し、注意機構の調整は複雑さを増す可能性がある。
これらの課題に対処するため,SAM-DETRを用いた半教師付きアプローチを導入する。
提案手法は, 表構造が多様である複雑な文書において, 偽陽性の顕著な低減と, 表検出性能の大幅な向上を示すものである。
この作業は、半教師付き設定でより効率的で正確なテーブル検出を提供する。
関連論文リスト
- Better Sampling, towards Better End-to-end Small Object Detection [7.7473020808686694]
限られた特性と高密度と相互重なり合いのため、小さな物体検出は不満足なままである。
エンド・ツー・エンド・フレームワークにおけるサンプリングの強化手法を提案する。
我々のモデルは、VisDroneデータセット上での最先端(SOTA)よりも平均精度(AP)が2.9%向上することを示す。
論文 参考訳(メタデータ) (2024-05-17T04:37:44Z) - End-to-End Semi-Supervised approach with Modulated Object Queries for Table Detection in Documents [12.042768320132694]
本研究では,革新的な変圧器を用いた半教師付きテーブル検出器を提案する。
これは、新しいマッチング戦略によって擬似ラベルの品質を向上させる。
mAPは95.7%、97.9%がTableBank(ワード)とPubLaynetで30%のラベルデータで達成されている。
論文 参考訳(メタデータ) (2024-05-08T11:24:57Z) - Sparse Semi-DETR: Sparse Learnable Queries for Semi-Supervised Object Detection [12.417754433715903]
Sparse Semi-DETRは、トランスフォーマーをベースとした、エンドツーエンドの半教師付きオブジェクト検出ソリューションである。
Sparse Semi-DETR には Query Refinement Module が組み込まれており、オブジェクトクエリの品質を高め、小型で部分的に隠されたオブジェクトの検出能力を著しく改善している。
MS-COCOおよびPascal VOCオブジェクト検出ベンチマークでは、Sparse Semi-DETRは現在の最先端手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-02T10:22:23Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Towards End-to-End Semi-Supervised Table Detection with Deformable
Transformer [11.648151981111436]
テーブル検出は、ドキュメントイメージ内のテーブルオブジェクトを分類し、ローカライズするタスクである。
多くの半教師付きアプローチが、大量のラベルデータの必要性を軽減するために導入されている。
本稿では,テーブルオブジェクトの検出にデフォルマブルトランスを用いた,エンド・ツー・エンドの半教師付きテーブル検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:15:15Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。