論文の概要: Multimodal Models Meet Presentation Attack Detection on ID Documents
- arxiv url: http://arxiv.org/abs/2603.29422v1
- Date: Tue, 31 Mar 2026 08:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.351883
- Title: Multimodal Models Meet Presentation Attack Detection on ID Documents
- Title(参考訳): ID文書の提示検出を行うマルチモーダルモデル
- Authors: Marina Villanueva, Juan M. Espin, Juan E. Tapia,
- Abstract要約: マルチモーダルモデルのプレゼンテーション検出への統合は生体認証の大幅な進歩を示している。
従来のPADシステムは視覚的特徴のみに依存しており、しばしば洗練されたスプーフ攻撃を検出することができない。
本研究では,事前学習したマルチモーダルモデルを用いて,視覚的・テキスト的モダリティの組み合わせについて検討する。
- 参考スコア(独自算出の注目度): 3.8427374405327535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The integration of multimodal models into Presentation Attack Detection (PAD) for ID Documents represents a significant advancement in biometric security. Traditional PAD systems rely solely on visual features, which often fail to detect sophisticated spoofing attacks. This study explores the combination of visual and textual modalities by utilizing pre-trained multimodal models, such as Paligemma, Llava, and Qwen, to enhance the detection of presentation attacks on ID Documents. This approach merges deep visual embeddings with contextual metadata (e.g., document type, issuer, and date). However, experimental results indicate that these models struggle to accurately detect PAD on ID Documents.
- Abstract(参考訳): ID文書の提示検出(PAD)へのマルチモーダルモデルの統合は生体認証の大幅な進歩を示している。
従来のPADシステムは視覚的特徴のみに依存しており、しばしば洗練されたスプーフ攻撃を検出することができない。
本研究では,Paligemma,Llava,Qwenなどの事前学習型マルチモーダルモデルを用いて,視覚的・テキスト的モダリティの組み合わせを検討した。
このアプローチは、深い視覚的な埋め込みとコンテキストメタデータ(例えば、ドキュメントタイプ、発行者、日付)をマージします。
しかし,実験結果から,これらのモデルではID文書上のPADを正確に検出することが困難であることが示唆された。
関連論文リスト
- IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2025-10-16T02:48:05Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在のLVLM(Large Vision-Language Models)は、マルチモーダルデータの理解において顕著な能力を示している。
深度検出のためのLVLMの潜在能力を解き放つ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:20:03Z) - Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification [3.141006099594433]
本稿では,文書分類システムにおける多モードOODタスクに対するアテンションヘッドマスキング(AHM)と呼ばれる新しい手法を提案する。
実験により,提案手法がすべての最先端手法より優れていることを示す。
高品質な公開可能なドキュメントデータセットの不足に対処するために、新しいドキュメントAIデータセットであるFunderDocsを紹介します。
論文 参考訳(メタデータ) (2024-08-20T23:30:00Z) - Multi-modal Document Presentation Attack Detection With Forensics Trace Disentanglement [22.751498009362795]
文書提示攻撃検出(DPAD)は,文書画像の真正性を保護する重要な手段である。
最近のDPAD手法では、追加データの収集や取得装置のパラメータの把握など、追加のリソースが要求されている。
本研究は、上記の欠点を伴わずに、MMDT(Multi-modal disentangled traces)に基づくDPAD法を提案する。
論文 参考訳(メタデータ) (2024-04-10T00:11:03Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - An Efficient Ensemble Explainable AI (XAI) Approach for Morphed Face
Detection [1.2599533416395763]
深層学習予測モデル(EfficientNet-Grad1)のより包括的な視覚的説明を提供するために,Ensemble XAIという新しい視覚的説明手法を提案する。
実験は、Face Research Lab London Set、Wide Multi-Channel Presentation Attack (WMCA)、Makeup induced Face Spoofing (MIFS)の3つの公開データセットで実施された。
論文 参考訳(メタデータ) (2023-04-23T13:43:06Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding [88.88844606781987]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。