Fugu-MT 論文翻訳(概要): MataDoc: Margin and Text Aware Document Dewarping for Arbitrary Boundary

論文の概要: MataDoc: Margin and Text Aware Document Dewarping for Arbitrary Boundary

arxiv url: http://arxiv.org/abs/2307.12571v1
Date: Mon, 24 Jul 2023 07:39:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 15:24:06.911762
Title: MataDoc: Margin and Text Aware Document Dewarping for Arbitrary Boundary
Title（参考訳）: MataDoc: 任意境界のためのマージンとテキスト対応ドキュメントのデワープ
Authors: Beiya Dai, Xing li, Qunyi Xie, Yulin Li, Xiameng Qin, Chengquan Zhang, Kun Yao, Junyu Han
Abstract要約: 本稿では,任意の境界文書のデワープに着目した最初の手法であるMataDocを提案する。具体的には、境界知覚を高めるために背景整合性を明示的に考慮し、マージン正則化を設計する。そこで本研究では,MataDocの総合評価を行うために,任意の境界を持つ文書画像からなる新しいベンチマークArbDocを提案する。
参考スコア（独自算出の注目度）: 21.526328229779967
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Document dewarping from a distorted camera-captured image is of great value for OCR and document understanding. The document boundary plays an important role which is more evident than the inner region in document dewarping. Current learning-based methods mainly focus on complete boundary cases, leading to poor document correction performance of documents with incomplete boundaries. In contrast to these methods, this paper proposes MataDoc, the first method focusing on arbitrary boundary document dewarping with margin and text aware regularizations. Specifically, we design the margin regularization by explicitly considering background consistency to enhance boundary perception. Moreover, we introduce word position consistency to keep text lines straight in rectified document images. To produce a comprehensive evaluation of MataDoc, we propose a novel benchmark ArbDoc, mainly consisting of document images with arbitrary boundaries in four typical scenarios. Extensive experiments confirm the superiority of MataDoc with consideration for the incomplete boundary on ArbDoc and also demonstrate the effectiveness of the proposed method on DocUNet, DIR300, and WarpDoc datasets.
Abstract（参考訳）: 歪んだカメラキャプチャ画像からの文書デワープは、OCRと文書理解にとって非常に重要である。文書境界は、文書のデウォープにおいて、内部領域よりも明らかな重要な役割を果たす。現在の学習ベース手法は主に完全境界の場合に焦点を当てており、不完全境界を持つ文書の文書修正性能が劣っている。これらの手法とは対照的に,本論文ではマージンとテキスト認識正規化を用いた任意の境界文書の変形に着目した最初の手法であるmatadocを提案する。具体的には,境界知覚を増大させるために背景整合性を明示的に考慮し,マージン正規化を設計する。さらに,単語位置の一貫性を導入し,テキスト行を正書画像にそのまま保持する。そこで本研究では,MataDocの総合評価を行うために,任意の境界を持つ文書画像からなる新しいベンチマークArbDocを提案する。 ArbDoc上の不完全境界を考慮したMataDocの優位性を確認し、DocUNet, DIR300, WarpDocデータセットにおける提案手法の有効性を実証した。

関連論文リスト

WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? [64.62909376834601]
本稿では,自然環境における文書理解の評価に特化して設計されたWildDocについて紹介する。 WildDoc上での最先端MLLMの評価は、従来のベンチマークと比べて性能が大幅に低下し、モデルの頑健さが不十分であることを示す。
論文参考訳（メタデータ） (2025-05-16T09:09:46Z)
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文参考訳（メタデータ） (2024-12-10T16:05:56Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Knowledge-Driven Cross-Document Relation Extraction [3.868708275322908]
関係抽出(RE)はよく知られたNLPアプリケーションであり、文レベルや文書レベルのタスクとして扱われる。本稿では,文書横断REのための入力テキストにエンティティのドメイン知識を組み込む新しい手法KXDocREを提案する。
論文参考訳（メタデータ） (2024-05-22T11:30:59Z)
DocMAE: Document Image Rectification via Self-supervised Representation Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文参考訳（メタデータ） (2023-04-20T14:27:15Z)
Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文参考訳（メタデータ） (2023-04-18T08:00:54Z)
Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文参考訳（メタデータ） (2022-06-20T20:43:50Z)
Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文参考訳（メタデータ） (2022-01-24T00:49:19Z)
DocScanner: Robust Document Image Rectification with Progressive Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。 DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文参考訳（メタデータ） (2021-10-28T09:15:02Z)
Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文参考訳（メタデータ） (2020-10-03T02:52:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。