論文の概要: SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation
- arxiv url: http://arxiv.org/abs/2305.00795v3
- Date: Mon, 21 Aug 2023 02:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 00:05:19.918079
- Title: SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation
- Title(参考訳): SelfDocSeg: ドキュメントセグメンテーションへの自己監督型ビジョンベースのアプローチ
- Authors: Subhajit Maity, Sanket Biswas, Siladittya Manna, Ayan Banerjee, Josep
Llad\'os, Saumik Bhattacharya, Umapada Pal
- Abstract要約: 文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
- 参考スコア(独自算出の注目度): 15.953725529361874
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Document layout analysis is a known problem to the documents research
community and has been vastly explored yielding a multitude of solutions
ranging from text mining, and recognition to graph-based representation, visual
feature extraction, etc. However, most of the existing works have ignored the
crucial fact regarding the scarcity of labeled data. With growing internet
connectivity to personal life, an enormous amount of documents had been
available in the public domain and thus making data annotation a tedious task.
We address this challenge using self-supervision and unlike, the few existing
self-supervised document segmentation approaches which use text mining and
textual labels, we use a complete vision-based approach in pre-training without
any ground-truth label or its derivative. Instead, we generate pseudo-layouts
from the document images to pre-train an image encoder to learn the document
object representation and localization in a self-supervised framework before
fine-tuning it with an object detection model. We show that our pipeline sets a
new benchmark in this context and performs at par with the existing methods and
the supervised counterparts, if not outperforms. The code is made publicly
available at: https://github.com/MaitySubhajit/SelfDocSeg
- Abstract(参考訳): 文書レイアウト分析は文書研究コミュニティにとって既知の問題であり,テキストマイニング,認識,グラフベース表現,視覚的特徴抽出など,多岐にわたるソリューションの提供が検討されている。
しかし、既存の作品の多くはラベル付きデータの不足に関する重要な事実を無視している。
個人生活へのインターネット接続の増大に伴い、パブリックドメインでは膨大な量のドキュメントが利用可能となり、データアノテーションは面倒な作業となった。
テキストマイニングやテキストラベルを用いた既存の文書セグメンテーションアプローチとは異なり,我々は,接地ラベルやその派生性のない事前学習において,完全な視覚に基づくアプローチを用いる。
代わりに、文書画像から擬似レイアウトを生成し、画像エンコーダを事前訓練し、文書オブジェクト表現とローカライゼーションを自己教師付きフレームワークで学習し、オブジェクト検出モデルで微調整する。
当社のパイプラインでは、このコンテキストで新たなベンチマークを設定し、既存のメソッドや監視対象のものと同等のパフォーマンスを実現しています。
コードは、https://github.com/MaitySubhajit/SelfDocSegで公開されている。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。
さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。
IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文 参考訳(メタデータ) (2020-12-15T10:19:18Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。