論文の概要: M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System
- arxiv url: http://arxiv.org/abs/2301.12831v3
- Date: Thu, 21 Mar 2024 05:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 20:49:10.205643
- Title: M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System
- Title(参考訳): M3FAS:正確でロバストなマルチモーダル・モバイル・フェイス・アンチ・スプーフィングシステム
- Authors: Chenqi Kong, Kexin Zheng, Yibing Liu, Shiqi Wang, Anderson Rocha, Haoliang Li,
- Abstract要約: フェイスプレゼンテーションアタック(FPA)は、様々な悪意あるアプリケーションを通じて、公衆の懸念を高めている。
我々は,M3FASという,正確で堅牢なマルチモーダル・モバイル・フェイス・アンチ・スポーフィングシステムを開発した。
- 参考スコア(独自算出の注目度): 39.37647248710612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face presentation attacks (FPA), also known as face spoofing, have brought increasing concerns to the public through various malicious applications, such as financial fraud and privacy leakage. Therefore, safeguarding face recognition systems against FPA is of utmost importance. Although existing learning-based face anti-spoofing (FAS) models can achieve outstanding detection performance, they lack generalization capability and suffer significant performance drops in unforeseen environments. Many methodologies seek to use auxiliary modality data (e.g., depth and infrared maps) during the presentation attack detection (PAD) to address this limitation. However, these methods can be limited since (1) they require specific sensors such as depth and infrared cameras for data capture, which are rarely available on commodity mobile devices, and (2) they cannot work properly in practical scenarios when either modality is missing or of poor quality. In this paper, we devise an accurate and robust MultiModal Mobile Face Anti-Spoofing system named M3FAS to overcome the issues above. The primary innovation of this work lies in the following aspects: (1) To achieve robust PAD, our system combines visual and auditory modalities using three commonly available sensors: camera, speaker, and microphone; (2) We design a novel two-branch neural network with three hierarchical feature aggregation modules to perform cross-modal feature fusion; (3). We propose a multi-head training strategy, allowing the model to output predictions from the vision, acoustic, and fusion heads, resulting in a more flexible PAD. Extensive experiments have demonstrated the accuracy, robustness, and flexibility of M3FAS under various challenging experimental settings. The source code and dataset are available at: https://github.com/ChenqiKONG/M3FAS/
- Abstract(参考訳): フェース・スプーフィング(face spoofing)としても知られるフェイス・プレゼンテーション・アタック(FPA)は、金融詐欺やプライバシー侵害など様々な悪意あるアプリケーションを通じて、公衆の懸念を高めている。
したがって、FPAに対する顔認識システムの保護が最も重要である。
既存の学習ベースフェース・スプーフィング(FAS)モデルは優れた検出性能を達成できるが、一般化能力が欠如し、予期せぬ環境下での大幅な性能低下を被る。
多くの方法論は、この制限に対処するために、プレゼンテーションアタック検出(PAD)において補助モダリティデータ(例えば、深度や赤外線マップ)を使用することを目指している。
しかし,これらの手法は,(1)コモディティなモバイルデバイスではめったに利用できない深度カメラや赤外線カメラなどの特定のセンサーを必要とすること,(2)モダリティの欠如や品質の低下など,現実的なシナリオでは適切に動作できないこと,などによって制限される可能性がある。
本稿では,M3FASというマルチモーダル・モバイル・フェイス・アンチ・スポーフィング・システムを開発した。
本研究の主な革新は,(1) 頑健なPADを実現するために, カメラ, スピーカ, マイクの3つの一般的なセンサを用いて視覚と聴覚のモダリティを組み合わせ, (2) 3つの階層的特徴集約モジュールを備えた新しい2分岐ニューラルネットワークを設計し, クロスモーダルな特徴融合を行う。
我々は,視覚,音響,融合ヘッドから予測を出力し,より柔軟なPADを実現するマルチヘッドトレーニング戦略を提案する。
様々な挑戦的な実験環境下でのM3FASの精度、堅牢性、柔軟性を広範囲にわたる実験により実証した。
ソースコードとデータセットは、https://github.com/ChenqiKONG/M3FAS/で入手できる。
関連論文リスト
- A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps [0.6144680854063939]
顔認識技術は、顔の偽造攻撃に対して脆弱である。
ステレオ深度カメラはこのような攻撃を効果的に検出できるが、その高いコストで採用が制限される。
本稿では,顔の特徴を利用して異質情報を導き出すことにより,この課題を克服する手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T15:29:51Z) - Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。
我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文 参考訳(メタデータ) (2024-07-27T03:21:44Z) - Flow-Attention-based Spatio-Temporal Aggregation Network for 3D Mask
Detection [12.160085404239446]
本稿では,FASTENと呼ばれる新しい3次元マスク検出フレームワークを提案する。
ネットワークが大きな動きの細部に集中するように調整することで、余分な時間的特徴干渉を排除できる。
FASTENは5フレームの入力しか必要とせず、データ内評価とクロスデータセット評価の両方で8つの競合より優れている。
論文 参考訳(メタデータ) (2023-10-25T11:54:21Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Towards Effective Adversarial Textured 3D Meshes on Physical Face
Recognition [42.60954035488262]
本研究の目的は、商業システムに対する対角的堅牢性の評価をエンドツーエンドで行うことのできる、より信頼性の高い技術を開発することである。
我々は、人間の顔に精巧なトポロジーを持つ、敵のテクスチャ化された3Dメッシュ(AT3D)を設計し、攻撃者の顔に3Dプリントして貼り付けることで、防御を回避する。
メッシュベースの空間から逸脱するために,3次元形態モデルに基づく低次元係数空間の摂動を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:42:54Z) - Face Presentation Attack Detection [59.05779913403134]
顔認識技術は、チェックインやモバイル支払いといった日々の対話的アプリケーションで広く利用されている。
しかしながら、プレゼンテーションアタック(PA)に対する脆弱性は、超セキュアなアプリケーションシナリオにおける信頼性の高い使用を制限する。
論文 参考訳(メタデータ) (2022-12-07T14:51:17Z) - Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth
Uncertainty Learning [54.15303628138665]
フェース・アンチ・スプーフィング(FAS)は、顔認識システムが提示攻撃を防ぐ上で重要な役割を担っている。
既存のフェース・アンチ・スプーフィング・データセットは、アイデンティティと重要なばらつきが不十分なため、多様性を欠いている。
我々は「生成によるアンチ・スプーフィング」によりこの問題に対処するデュアル・スポット・ディアンタングメント・ジェネレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:36:59Z) - YOLOpeds: Efficient Real-Time Single-Shot Pedestrian Detection for Smart
Camera Applications [2.588973722689844]
この研究は、スマートカメラアプリケーションにおけるディープラーニングに基づく歩行者検出の効率的な展開のために、精度と速度の良好なトレードオフを達成するという課題に対処する。
分離可能な畳み込みに基づいて計算効率の良いアーキテクチャを導入し、層間密結合とマルチスケール機能融合を提案する。
全体として、YOLOpedsは、既存のディープラーニングモデルよりも86%の速度で、毎秒30フレーム以上のリアルタイム持続的な操作を提供する。
論文 参考訳(メタデータ) (2020-07-27T09:50:11Z) - Face Anti-Spoofing with Human Material Perception [76.4844593082362]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。
我々は、顔の反偽造を物質認識問題として言い換え、それを古典的な人間の物質知覚と組み合わせる。
本稿では,本質的な素材に基づくパターンをキャプチャ可能なバイラテラル畳み込みネットワーク(BCN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T18:25:53Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。