論文の概要: TwoHead-SwinFPN: A Unified DL Architecture for Synthetic Manipulation, Detection and Localization in Identity Documents
- arxiv url: http://arxiv.org/abs/2601.12895v1
- Date: Mon, 19 Jan 2026 09:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.844612
- Title: TwoHead-SwinFPN: A Unified DL Architecture for Synthetic Manipulation, Detection and Localization in Identity Documents
- Title(参考訳): TwoHead-SwinFPN: アイデンティティドキュメントの合成操作,検出,ローカライゼーションのための統合DLアーキテクチャ
- Authors: Chan Naseeb, Adeel Ashraf Cheema, Hassan Sami, Tayyab Afzal, Muhammad Omair, Usman Habib,
- Abstract要約: TwoHead-SwinFPNは、ID文書内の操作済み領域のバイナリ分類と正確なローカライズを同時に行う統合ディープラーニングアーキテクチャである。
提案手法では,Swin TransformerのバックボーンをFeature Pyramid Network(FPN)とUNetスタイルのデコーダと統合し,CBAM(Convolutional Block Attention Module)を拡張して特徴表現を改善する。
FantasyIDiapデータセットの実験では、84.31%の精度、90.78%のAUC、57.24%のDiceスコアが優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 0.4881924950569192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of sophisticated generative AI models has significantly escalated the threat of synthetic manipulations in identity documents, particularly through face swapping and text inpainting attacks. This paper presents TwoHead-SwinFPN, a unified deep learning architecture that simultaneously performs binary classification and precise localization of manipulated regions in ID documents. Our approach integrates a Swin Transformer backbone with Feature Pyramid Network (FPN) and UNet-style decoder, enhanced with Convolutional Block Attention Module (CBAM) for improved feature representation. The model employs a dual-head architecture for joint optimization of detection and segmentation tasks, utilizing uncertainty-weighted multi-task learning. Extensive experiments on the FantasyIDiap dataset demonstrate superior performance with 84.31\% accuracy, 90.78\% AUC for classification, and 57.24\% mean Dice score for localization. The proposed method achieves an F1-score of 88.61\% for binary classification while maintaining computational efficiency suitable for real-world deployment through FastAPI implementation. Our comprehensive evaluation includes ablation studies, cross-device generalization analysis, and detailed performance assessment across 10 languages and 3 acquisition devices.
- Abstract(参考訳): 高度な生成AIモデルの拡散は、アイデンティティドキュメントにおける合成操作の脅威を、特に顔スワップやテキストのインペイント攻撃によって著しく高めている。
本稿では,ID文書中の操作済み領域の2値分類と正確な局所化を同時に行う統合ディープラーニングアーキテクチャであるTwoHead-SwinFPNを提案する。
提案手法では,Swin TransformerのバックボーンをFeature Pyramid Network(FPN)とUNetスタイルのデコーダと統合し,CBAM(Convolutional Block Attention Module)を拡張して特徴表現を改善する。
このモデルは、不確実性重み付きマルチタスク学習を利用して、検出タスクとセグメンテーションタスクを共同で最適化するためのデュアルヘッドアーキテクチャを採用している。
FantasyIDiapデータセットの大規模な実験では、84.31\%の精度、90.78\%のAUC、57.24\%の平均Diceスコアが優れたパフォーマンスを示している。
提案手法は,FastAPI実装による実世界展開に適した計算効率を維持しつつ,バイナリ分類のためのF1スコア88.61\%を実現する。
包括的評価には、アブレーション研究、クロスデバイス一般化分析、および10言語および3つの取得デバイスにわたる詳細な性能評価が含まれる。
関連論文リスト
- AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。
我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。
その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文 参考訳(メタデータ) (2026-01-07T11:18:10Z) - MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing [117.58619053719251]
MinerU2.5は、例外的な計算効率を維持しつつ、最先端の認識精度を実現する文書解析モデルである。
提案手法では,局所的なコンテンツ認識からグローバルなレイアウト解析を分離する,粗大な2段階解析戦略を採用している。
論文 参考訳(メタデータ) (2025-09-26T10:45:48Z) - Deepfake Detection that Generalizes Across Benchmarks [48.85953407706351]
ディープフェイク検出器の非表示操作技術への一般化は、実用的展開の課題である。
この研究は、基礎となる事前学習された視覚エンコーダのパラメータ効率適応により、ロバストな一般化が達成可能であることを示す。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-08T12:03:56Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - G-MSGINet: A Grouped Multi-Scale Graph-Involution Network for Contactless Fingerprint Recognition [20.458766184257147]
G-MSGINetは、接触レス指紋認識のための統一されたフレームワークである。
生の入力画像から直接、微妙な局所化とアイデンティティの埋め込みを共同で行う。
3つのベンチマークデータセットの大規模な実験は、G-MSGINetが97.0%から99.1%の範囲で0.83pm0.02$、ランク1の識別精度で一貫してF1スコアを達成していることを示している。
論文 参考訳(メタデータ) (2025-05-13T05:24:24Z) - AWARE-NET: Adaptive Weighted Averaging for Robust Ensemble Network in Deepfake Detection [0.0]
ディープラーニングに基づくディープフェイク検出のための新しい2層アンサンブルフレームワークを提案する。
私たちのフレームワークは、各アーキテクチャが3回インスタンス化されるユニークなアプローチを採用しています。
実験は最先端のデータセット内性能を達成した。
論文 参考訳(メタデータ) (2025-05-01T05:14:50Z) - Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。