論文の概要: CTP-Net: Character Texture Perception Network for Document Image Forgery
Localization
- arxiv url: http://arxiv.org/abs/2308.02158v1
- Date: Fri, 4 Aug 2023 06:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:53:41.057006
- Title: CTP-Net: Character Texture Perception Network for Document Image Forgery
Localization
- Title(参考訳): CTP-Net:Document Image Forgery Localizationのための文字テクスチャ知覚ネットワーク
- Authors: Xin Liao and Siliang Chen and Jiaxin Chen and Tianyi Wang and Xiehua
Li
- Abstract要約: 文書画像において、特定の意味情報を持つ文字は、改ざんに対して最も脆弱である。
文書画像の偽造をローカライズするための文字テクスチャ知覚ネットワーク(CTP-Net)を提案する。
提案手法は,特にテキスト領域において,文書画像中の改ざんトレースをキャプチャできることを示す。
- 参考スコア(独自算出の注目度): 29.58673768270491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the progression of information technology in recent years, document
images have been widely disseminated in social networks. With the help of
powerful image editing tools, document images are easily forged without leaving
visible manipulation traces, which leads to severe issues if significant
information is falsified for malicious use. Therefore, the research of document
image forensics is worth further exploring. In a document image, the character
with specific semantic information is most vulnerable to tampering, for which
capturing the forgery traces of the character is the key to localizing the
forged region in document images. Considering both character and image
textures, in this paper, we propose a Character Texture Perception Network
(CTP-Net) to localize the forgery of document images. Based on optical
character recognition, a Character Texture Stream (CTS) is designed to capture
features of text areas that are essential components of a document image.
Meanwhile, texture features of the whole document image are exploited by an
Image Texture Stream (ITS). Combining the features extracted from the CTS and
the ITS, the CTP-Net can reveal more subtle forgery traces from document
images. To overcome the challenge caused by the lack of fake document images,
we design a data generation strategy that is utilized to construct a Fake
Chinese Trademark dataset (FCTM). Through a series of experiments, we show that
the proposed CTP-Net is able to capture tampering traces in document images,
especially in text regions. Experimental results demonstrate that CTP-Net can
localize multi-scale forged areas in document images and outperform the
state-of-the-art forgery localization methods.
- Abstract(参考訳): 近年,情報技術の進歩により,文書画像はソーシャルネットワーク上で広く普及している。
強力な画像編集ツールの助けを借りて、ドキュメントイメージは目に見える操作トレースを残すことなく簡単に偽造され、悪意のある使用のために重要な情報が偽造された場合、深刻な問題を引き起こす。
したがって、文書画像鑑定の研究は、さらに探究する価値がある。
文書画像において、特定の意味情報を有する文字は改ざんに対して最も脆弱であり、文字の偽造トレースをキャプチャすることが文書画像における偽造領域のローカライズの鍵となる。
本稿では,文字テクスチャと画像テクスチャの両方を考慮して,文書画像の偽造をローカライズする文字テクスチャ知覚ネットワーク(ctp-net)を提案する。
光文字認識に基づいて、文字テクスチャストリーム(CTS)は、文書画像の必須成分であるテキスト領域の特徴をキャプチャするように設計されている。
一方、文書画像全体のテクスチャ特徴は、画像テクスチャストリーム(ITS)によって活用される。
CTSとITSから抽出された特徴を組み合わせることで、CTP-Netは文書画像からより微妙な偽の痕跡を明らかにすることができる。
偽文書画像の欠如による課題を克服するため,Fake Chinese Trademark dataset (FCTM) の構築に利用されるデータ生成戦略を設計した。
一連の実験を通して,提案したCTP-Netは,特にテキスト領域において,文書画像の改ざんトレースをキャプチャできることを示す。
実験の結果,ctp-netは文書画像中の複数スケールの偽造領域をローカライズし,最先端の偽造ローカライズ手法を上回った。
関連論文リスト
- A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Augraphy: A Data Augmentation Library for Document Images [59.457999432618614]
Augraphyはデータ拡張パイプラインを構築するためのPythonライブラリである。
標準的なオフィス操作によって変更されたように見えるクリーンなドキュメントイメージの拡張版を作成するための戦略を提供する。
論文 参考訳(メタデータ) (2022-08-30T22:36:19Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z) - PICK: Processing Key Information Extraction from Documents using
Improved Graph Learning-Convolutional Networks [5.210482046387142]
文書から重要な情報抽出は依然として課題である。
我々は,KIEの複雑なドキュメントレイアウトを扱う上で,効果的かつ堅牢なフレームワークであるPICKを紹介する。
提案手法は, 基準線法を有意差で上回っている。
論文 参考訳(メタデータ) (2020-04-16T05:20:16Z) - A Fast Fully Octave Convolutional Neural Network for Document Image
Segmentation [1.8426817621478804]
ID画像中の文書のエッジやテキスト領域を検出するためのU-Netに基づく手法について検討する。
本研究では,オクタベ・コンボリューションに基づくモデル最適化手法を提案する。
その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
論文 参考訳(メタデータ) (2020-04-03T00:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。