論文の概要: SwinDocSegmenter: An End-to-End Unified Domain Adaptive Transformer for
Document Instance Segmentation
- arxiv url: http://arxiv.org/abs/2305.04609v1
- Date: Mon, 8 May 2023 10:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 14:37:31.351015
- Title: SwinDocSegmenter: An End-to-End Unified Domain Adaptive Transformer for
Document Instance Segmentation
- Title(参考訳): SwinDocSegmenter: ドキュメントインスタンスセグメンテーションのためのエンドツーエンドのUnified Domain Adaptive Transformer
- Authors: Ayan Banerjee, Sanket Biswas, Josep Llad\'os, Umapada Pal
- Abstract要約: 本稿では,文書画像の複雑なレイアウトのエンド・ツー・エンドのインスタンスセグメンテーションのための統一型トランスフォーマーエンコーダ・デコーダアーキテクチャを提案する。
SwinLのバックボーンを用いたモデルでは,既存の最先端手法よりもセグメンテーション性能が向上する。
- 参考スコア(独自算出の注目度): 17.512550508641336
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Instance-level segmentation of documents consists in assigning a class-aware
and instance-aware label to each pixel of the image. It is a key step in
document parsing for their understanding. In this paper, we present a unified
transformer encoder-decoder architecture for en-to-end instance segmentation of
complex layouts in document images. The method adapts a contrastive training
with a mixed query selection for anchor initialization in the decoder. Later
on, it performs a dot product between the obtained query embeddings and the
pixel embedding map (coming from the encoder) for semantic reasoning. Extensive
experimentation on competitive benchmarks like PubLayNet, PRIMA, Historical
Japanese (HJ), and TableBank demonstrate that our model with SwinL backbone
achieves better segmentation performance than the existing state-of-the-art
approaches with the average precision of \textbf{93.72}, \textbf{54.39},
\textbf{84.65} and \textbf{98.04} respectively under one billion parameters.
The code is made publicly available at:
\href{https://github.com/ayanban011/SwinDocSegmenter}{github.com/ayanban011/SwinDocSegmenter}
- Abstract(参考訳): 文書のインスタンスレベルのセグメンテーションは、画像の各ピクセルにクラス認識およびインスタンス認識ラベルを割り当てることである。
ドキュメント解析において、理解のための重要なステップです。
本稿では,文書画像の複雑なレイアウトのエンドツーエンドのインスタンスセグメンテーションのための統一型トランスフォーマーエンコーダ・デコーダアーキテクチャを提案する。
この方法は、デコーダのアンカー初期化のための混合クエリ選択によるコントラストトレーニングに適応する。
その後、得られたクエリ埋め込みとセマンティック推論のためのピクセル埋め込みマップ(エンコーダから来る)の間のドット積を実行する。
PubLayNet, PRIMA, Historical Japanese (HJ) や TableBank といった競合ベンチマークの大規模な実験により,SwinL のバックボーンを用いたモデルでは,10億のパラメータで,従来の最先端手法よりも,平均精度の \textbf{93.72}, \textbf{54.39}, \textbf{84.65} と \textbf{98.04} のセグメンテーション性能が向上することが示された。
コードは以下で公開されている。 \href{https://github.com/ayanban011/SwinDocSegmenter}{github.com/ayanban011/SwinDocSegmenter}
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation [91.91385816767057]
オープンボキャブラリセマンティックセグメンテーションは、ピクセルをオープンなカテゴリの集合から異なるセマンティックグループに区別する試みである。
オープン語彙セマンティックセグメンテーションのための単純なエンコーダデコーダSEDを提案する。
SED法では、ADE20KではmIoUスコアが31.6%、A6000では画像あたり82ミリ秒(ms$)のカテゴリが150である。
論文 参考訳(メタデータ) (2023-11-27T05:00:38Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - DocSegTr: An Instance-Level End-to-End Document Image Segmentation
Transformer [16.03084865625318]
ビジネスインテリジェンスプロセスは、しばしばドキュメントから有用なセマンティックコンテンツを抽出する必要がある。
本稿では,文書画像における複雑なレイアウトのエンドツーエンドセグメンテーションのためのトランスフォーマーモデルを提案する。
我々のモデルは、既存の最先端手法に比べて、同等またはより良いセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2022-01-27T10:50:22Z) - Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。