論文の概要: DocMAE: Document Image Rectification via Self-supervised Representation
Learning
- arxiv url: http://arxiv.org/abs/2304.10341v1
- Date: Thu, 20 Apr 2023 14:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:53:59.066477
- Title: DocMAE: Document Image Rectification via Self-supervised Representation
Learning
- Title(参考訳): DocMAE:自己教師型表現学習による文書化
- Authors: Shaokai Liu, Hao Feng, Wengang Zhou, Houqiang Li, Cong Liu, Feng Wu
- Abstract要約: 文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
- 参考スコア(独自算出の注目度): 144.44748607192147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tremendous efforts have been made on document image rectification, but how to
learn effective representation of such distorted images is still
under-explored. In this paper, we present DocMAE, a novel self-supervised
framework for document image rectification. Our motivation is to encode the
structural cues in document images by leveraging masked autoencoder to benefit
the rectification, i.e., the document boundaries, and text lines. Specifically,
we first mask random patches of the background-excluded document images and
then reconstruct the missing pixels. With such a self-supervised learning
approach, the network is encouraged to learn the intrinsic structure of
deformed documents by restoring document boundaries and missing text lines.
Transfer performance in the downstream rectification task validates the
effectiveness of our method. Extensive experiments are conducted to demonstrate
the effectiveness of our method.
- Abstract(参考訳): 文書画像の修正に多大な努力が払われているが、そのような歪んだ画像の効果的な表現をいかに学ぶかはまだ未定である。
本稿では,文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
私たちのモチベーションは、マスク付きオートエンコーダを利用して文書画像の構造的手がかり、すなわち文書境界とテキスト行をエンコードすることにあります。
具体的には、背景を除いた文書画像のランダムなパッチをマスクし、失明したピクセルを再構成する。
このような自己指導型学習手法により、文書境界の復元とテキスト行の欠如により、変形文書の本質的な構造を学習することが奨励される。
下流修正作業における転送性能は,本手法の有効性を検証する。
本手法の有効性を示すために広範な実験を行った。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Image Generation and Learning Strategy for Deep Document Forgery
Detection [7.585489507445007]
生成タスクのためのディープニューラルネットワーク(DNN)手法の最近の進歩は、文書偽造の脅威を増幅する可能性がある。
本研究では,FD-VIEDと呼ばれる文書偽画像のトレーニングデータセットを構築し,攻撃の可能性をエミュレートする。
実験では,本手法が検出性能を向上させることを実証した。
論文 参考訳(メタデータ) (2023-11-07T01:40:00Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network [30.18238229156996]
完全畳み込みネットワーク(FCN)を用いて歪んだ文書イメージを補正し、背景を細かく除去する枠組みを提案する。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-04-14T12:32:36Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。