論文の概要: FaceCoT: A Benchmark Dataset for Face Anti-Spoofing with Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2506.01783v1
- Date: Mon, 02 Jun 2025 15:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.581341
- Title: FaceCoT: A Benchmark Dataset for Face Anti-Spoofing with Chain-of-Thought Reasoning
- Title(参考訳): FaceCoT:Chain-of-Thought Reasoningを使ったFace-Spoofingのベンチマークデータセット
- Authors: Honglu Zhang, Zhiqin Fang, Ningning Zhao, Saihui Hou, Long Ma, Renwang Pei, Zhaofeng He,
- Abstract要約: Face Anti-Spoofing (FAS) は、通常、プレゼンテーションアタックに対する防御において、単一の視覚的モダリティに依存する。
FAS用に調整された最初の大規模ビジュアル質問回答(VQA)データセットであるFaceCoTを紹介する。
我々は、データセットを拡張し、アノテーションの品質を高めるために、強化学習により洗練されたキャプションモデルを開発する。
- 参考スコア(独自算出の注目度): 7.383782140190257
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Face Anti-Spoofing (FAS) typically depends on a single visual modality when defending against presentation attacks such as print attacks, screen replays, and 3D masks, resulting in limited generalization across devices, environments, and attack types. Meanwhile, Multimodal Large Language Models (MLLMs) have recently achieved breakthroughs in image-text understanding and semantic reasoning, suggesting that integrating visual and linguistic co-inference into FAS can substantially improve both robustness and interpretability. However, the lack of a high-quality vision-language multimodal dataset has been a critical bottleneck. To address this, we introduce FaceCoT (Face Chain-of-Thought), the first large-scale Visual Question Answering (VQA) dataset tailored for FAS. FaceCoT covers 14 spoofing attack types and enriches model learning with high-quality CoT VQA annotations. Meanwhile, we develop a caption model refined via reinforcement learning to expand the dataset and enhance annotation quality. Furthermore, we introduce a CoT-Enhanced Progressive Learning (CEPL) strategy to better leverage the CoT data and boost model performance on FAS tasks. Extensive experiments demonstrate that models trained with FaceCoT and CEPL outperform state-of-the-art methods on multiple benchmark datasets.
- Abstract(参考訳): Face Anti-Spoofing (FAS) は、通常、印刷攻撃、スクリーンリプレイ、および3Dマスクなどの表示攻撃に対して防御する際、単一の視覚的モダリティに依存し、デバイス、環境、攻撃タイプに対して限定的な一般化をもたらす。
一方、MLLM(Multimodal Large Language Models)は、画像テキスト理解と意味推論においてブレークスルーを達成しており、視覚的および言語的共推論をFASに統合することで、堅牢性と解釈可能性の両方を大幅に向上させることができることを示唆している。
しかし、高品質なビジョン言語によるマルチモーダルデータセットの欠如は、重大なボトルネックとなっている。
この問題を解決するために、FAS用に調整された最初の大規模ビジュアル質問回答(VQA)データセットであるFaceCoT(Face Chain-of-Thought)を紹介した。
FaceCoTは14のスプーフィング攻撃タイプをカバーし、高品質のCoT VQAアノテーションでモデル学習を強化している。
一方,強調学習によって改良されたキャプションモデルを構築し,データセットを拡張し,アノテーションの品質を向上させる。
さらに、我々は、CoTデータをよりよく活用し、FASタスクにおけるモデル性能を向上させるために、CoT強化プログレッシブラーニング(CEPL)戦略を導入する。
大規模な実験により、FaceCoTとCEPLでトレーニングされたモデルは、複数のベンチマークデータセット上で最先端の手法より優れていることが示された。
関連論文リスト
- Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。
本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文 参考訳(メタデータ) (2025-02-03T17:59:45Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - FaceCat: Enhancing Face Recognition Security with a Unified Diffusion Model [30.0523477092216]
対面防止(FAS)と対向検出(FAD)は、顔認識システムの安全性を確保するための重要な技術であると考えられている。
本研究の目的は,1) 顔下特徴表現と2) トレーニングデータの不足という2つの主要な障害を突破することで,この目標を達成することである。
論文 参考訳(メタデータ) (2024-04-14T09:01:26Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。