論文の概要: End-to-End Semi-Supervised approach with Modulated Object Queries for Table Detection in Documents
- arxiv url: http://arxiv.org/abs/2405.04971v2
- Date: Sat, 11 May 2024 10:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 20:52:15.502344
- Title: End-to-End Semi-Supervised approach with Modulated Object Queries for Table Detection in Documents
- Title(参考訳): 文書中のテーブル検出のための修正対象クエリを用いたエンド・ツー・エンド半監視手法
- Authors: Iqraa Ehsan, Tahira Shehzadi, Didier Stricker, Muhammad Zeshan Afzal,
- Abstract要約: 本研究では,革新的な変圧器を用いた半教師付きテーブル検出器を提案する。
これは、新しいマッチング戦略によって擬似ラベルの品質を向上させる。
mAPは95.7%、97.9%がTableBank(ワード)とPubLaynetで30%のラベルデータで達成されている。
- 参考スコア(独自算出の注目度): 12.042768320132694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table detection, a pivotal task in document analysis, aims to precisely recognize and locate tables within document images. Although deep learning has shown remarkable progress in this realm, it typically requires an extensive dataset of labeled data for proficient training. Current CNN-based semi-supervised table detection approaches use the anchor generation process and Non-Maximum Suppression (NMS) in their detection process, limiting training efficiency. Meanwhile, transformer-based semi-supervised techniques adopted a one-to-one match strategy that provides noisy pseudo-labels, limiting overall efficiency. This study presents an innovative transformer-based semi-supervised table detector. It improves the quality of pseudo-labels through a novel matching strategy combining one-to-one and one-to-many assignment techniques. This approach significantly enhances training efficiency during the early stages, ensuring superior pseudo-labels for further training. Our semi-supervised approach is comprehensively evaluated on benchmark datasets, including PubLayNet, ICADR-19, and TableBank. It achieves new state-of-the-art results, with a mAP of 95.7% and 97.9% on TableBank (word) and PubLaynet with 30% label data, marking a 7.4 and 7.6 point improvement over previous semi-supervised table detection approach, respectively. The results clearly show the superiority of our semi-supervised approach, surpassing all existing state-of-the-art methods by substantial margins. This research represents a significant advancement in semi-supervised table detection methods, offering a more efficient and accurate solution for practical document analysis tasks.
- Abstract(参考訳): 文書解析における重要なタスクであるテーブル検出は、文書画像内のテーブルを正確に認識し、特定することを目的としている。
ディープラーニングはこの領域で顕著な進歩を見せているが、通常、熟練したトレーニングのためにラベル付きデータの広範なデータセットを必要とする。
現在のCNNベースの半教師付きテーブル検出アプローチでは、アンカー生成プロセスと非最大抑圧(NMS)を検出プロセスに使用し、トレーニング効率を制限している。
一方、トランスフォーマーベースの半教師付き技術は、ノイズの多い擬似ラベルを提供する1対1のマッチング戦略を採用し、全体的な効率を制限した。
本研究では,革新的な変圧器を用いた半教師付きテーブル検出器を提案する。
1対1と1対1の割り当て技術を組み合わせた新しいマッチング戦略により、擬似ラベルの品質を向上させる。
このアプローチは、早期のトレーニング効率を大幅に向上させ、さらなるトレーニングのために優れた擬似ラベルを確保する。
我々の半教師付きアプローチは、PubLayNet、ICADR-19、TableBankなどのベンチマークデータセットで包括的に評価されます。
従来の半教師付きテーブル検出手法よりも7.4点と7.6点の改善を達成し、TableBank(ワード)とPubLaynetで95.7%と97.9%のmAPを達成している。
その結果,既存の最先端手法を実質的なマージンで上回る半教師ありアプローチの優位性を示した。
本研究は, 半教師付きテーブル検出手法の大幅な進歩を示し, 実用的な文書解析タスクに対して, より効率的かつ正確な解法を提供する。
関連論文リスト
- Towards End-to-End Semi-Supervised Table Detection with Semantic Aligned Matching Transformer [12.042768320132694]
文書画像内のテーブル検出は、テーブルの識別とローカライゼーションを含む文書処理において重要なタスクである。
ディープラーニングの最近の進歩は、このタスクの精度を大幅に向上させたが、それでも効果的なトレーニングには大きなラベル付きデータセットに依存している。
本稿では, SAM-DETRを用いた半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-30T20:25:57Z) - Towards End-to-End Semi-Supervised Table Detection with Deformable
Transformer [11.648151981111436]
テーブル検出は、ドキュメントイメージ内のテーブルオブジェクトを分類し、ローカライズするタスクである。
多くの半教師付きアプローチが、大量のラベルデータの必要性を軽減するために導入されている。
本稿では,テーブルオブジェクトの検出にデフォルマブルトランスを用いた,エンド・ツー・エンドの半教師付きテーブル検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:15:15Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Active Transfer Prototypical Network: An Efficient Labeling Algorithm
for Time-Series Data [1.7205106391379026]
本稿では,プロトタイプネットワーク(ProtoNet)をALイテレーションに組み込むことで,トレードオフ問題に対処する新しいFew-Shot Learning(FSL)ベースのALフレームワークを提案する。
このフレームワークは、UCI HAR/HAPTデータセットと現実世界のブレーキ操作データセットに基づいて検証された。
学習性能は、両方のデータセットにおける従来のALアルゴリズムを大幅に上回り、それぞれ10%と5%のラベル付け作業で90%の分類精度を達成した。
論文 参考訳(メタデータ) (2022-09-28T16:14:40Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。