論文の概要: Multi-modal Document Presentation Attack Detection With Forensics Trace Disentanglement
- arxiv url: http://arxiv.org/abs/2404.06663v1
- Date: Wed, 10 Apr 2024 00:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 15:59:05.356836
- Title: Multi-modal Document Presentation Attack Detection With Forensics Trace Disentanglement
- Title(参考訳): 法医学的トレース歪みを用いたマルチモーダル文書提示攻撃検出
- Authors: Changsheng Chen, Yongyi Deng, Liangwei Lin, Zitong Yu, Zhimao Lai,
- Abstract要約: 文書提示攻撃検出(DPAD)は,文書画像の真正性を保護する重要な手段である。
最近のDPAD手法では、追加データの収集や取得装置のパラメータの把握など、追加のリソースが要求されている。
本研究は、上記の欠点を伴わずに、MMDT(Multi-modal disentangled traces)に基づくDPAD法を提案する。
- 参考スコア(独自算出の注目度): 22.751498009362795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Presentation Attack Detection (DPAD) is an important measure in protecting the authenticity of a document image. However, recent DPAD methods demand additional resources, such as manual effort in collecting additional data or knowing the parameters of acquisition devices. This work proposes a DPAD method based on multi-modal disentangled traces (MMDT) without the above drawbacks. We first disentangle the recaptured traces by a self-supervised disentanglement and synthesis network to enhance the generalization capacity in document images with different contents and layouts. Then, unlike the existing DPAD approaches that rely only on data in the RGB domain, we propose to explicitly employ the disentangled recaptured traces as new modalities in the transformer backbone through adaptive multi-modal adapters to fuse RGB/trace features efficiently. Visualization of the disentangled traces confirms the effectiveness of the proposed method in different document contents. Extensive experiments on three benchmark datasets demonstrate the superiority of our MMDT method on representing forensic traces of recapturing distortion.
- Abstract(参考訳): 文書提示攻撃検出(DPAD)は,文書画像の真正性を保護する重要な手段である。
しかし、最近のDPAD手法では、追加データの収集や取得装置のパラメータの把握など、追加のリソースが要求されている。
本研究では,上記の欠点を伴わないマルチモーダル・ディスタングル・トレース(MMDT)に基づくDPAD法を提案する。
まず、自己教師付き不整合合成ネットワークにより、再構成されたトレースを切断し、異なる内容とレイアウトを持つ文書画像の一般化能力を高める。
そして、RGB領域のデータのみに依存する既存のDPADアプローチとは異なり、RGB/トレース機能を効率的に融合するための適応型マルチモーダルアダプタを通して、トランスフォーマーバックボーンの新たなモダリティとして、不整合したトレースを明示的に採用することを提案する。
歪んだトレースの可視化は,提案手法の有効性を異なる文書内容で確認する。
3つのベンチマークデータセットに対する大規模な実験により、再適応歪みの法医学的痕跡を表すMMDT法が優れていることが示された。
関連論文リスト
- DECDM: Document Enhancement using Cycle-Consistent Diffusion Models [3.3813766129849845]
近年の拡散モデルに触発された文書レベルの画像変換手法であるDECDMを提案する。
本手法は,ソース(ノイズ入力)とターゲット(クリーン出力)モデルを独立にトレーニングすることで,ペアトレーニングの限界を克服する。
また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。
論文 参考訳(メタデータ) (2023-11-16T07:16:02Z) - Image Generation and Learning Strategy for Deep Document Forgery
Detection [7.585489507445007]
生成タスクのためのディープニューラルネットワーク(DNN)手法の最近の進歩は、文書偽造の脅威を増幅する可能性がある。
本研究では,FD-VIEDと呼ばれる文書偽画像のトレーニングデータセットを構築し,攻撃の可能性をエミュレートする。
実験では,本手法が検出性能を向上させることを実証した。
論文 参考訳(メタデータ) (2023-11-07T01:40:00Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z) - Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。
我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-16T15:21:46Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - MEG: Multi-Evidence GNN for Multimodal Semantic Forensics [28.12652559292884]
フェイクニュースは、画像、テキスト、位置などのモダリティを横断するセマンティックな操作を伴うことが多い。
近年の研究では、画像の再利用という問題に焦点が当てられている。
マルチモーダル・セマンティック・フォサイシクスのための新しいグラフニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-11-23T09:01:28Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。