論文の概要: From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing
- arxiv url: http://arxiv.org/abs/2603.01038v1
- Date: Sun, 01 Mar 2026 10:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.474187
- Title: From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing
- Title(参考訳): 直感から調査へ:汎用的な顔アンチスプーフィングのためのツール強化型推論MLLMフレームワーク
- Authors: Haoyuan Zhang, Keyao Wang, Guosheng Zhang, Haixiao Yue, Zhiwen Tan, Siran Peng, Tianshuo Zhang, Xiao Tan, Kunbin Chen, Wei He, Jingdong Wang, Ajian Liu, Xiangyu Zhu, Zhen Lei,
- Abstract要約: ツール拡張型推論FAS(TAR-FAS)フレームワークを提案する。このフレームワークは、Face Anti-Spoofingタスクを、CoT-VT(Chain-of-Thought with Visual Tools)パラダイムとして再構成する。
TAR-FASは、信頼性の高いスプーフ検出のためのきめ細かな視覚的調査を行い、SOTA性能を実現する。
- 参考スコア(独自算出の注目度): 47.26568822352609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face recognition remains vulnerable to presentation attacks, calling for robust Face Anti-Spoofing (FAS) solutions. Recent MLLM-based FAS methods reformulate the binary classification task as the generation of brief textual descriptions to improve cross-domain generalization. However, their generalizability is still limited, as such descriptions mainly capture intuitive semantic cues (e.g., mask contours) while struggling to perceive fine-grained visual patterns. To address this limitation, we incorporate external visual tools into MLLMs to encourage deeper investigation of subtle spoof clues. Specifically, we propose the Tool-Augmented Reasoning FAS (TAR-FAS) framework, which reformulates the FAS task as a Chain-of-Thought with Visual Tools (CoT-VT) paradigm, allowing MLLMs to begin with intuitive observations and adaptively invoke external visual tools for fine-grained investigation. To this end, we design a tool-augmented data annotation pipeline and construct the ToolFAS-16K dataset, which contains multi-turn tool-use reasoning trajectories. Furthermore, we introduce a tool-aware FAS training pipeline, where Diverse-Tool Group Relative Policy Optimization (DT-GRPO) enables the model to autonomously learn efficient tool use. Extensive experiments under a challenging one-to-eleven cross-domain protocol demonstrate that TAR-FAS achieves SOTA performance while providing fine-grained visual investigation for trustworthy spoof detection.
- Abstract(参考訳): 顔認識はプレゼンテーション攻撃に対して脆弱であり、堅牢なFace Anti-Spoofing (FAS)ソリューションを求めている。
MLLMに基づく最近のFAS法は、クロスドメインの一般化を改善するための短いテキスト記述の生成としてバイナリ分類タスクを再構成する。
しかし、その一般化可能性はまだ限られており、その記述は主に直感的な意味的手がかり(例えば、マスクの輪郭)を捉えながら、きめ細かい視覚パターンを知覚するのに苦労している。
この制限に対処するために、我々は外部視覚ツールをMLLMに組み込んで、微妙なスプーフ手がかりのより深い調査を奨励する。
具体的には、FASタスクをCoT-VT(Chain-of-Thought with Visual Tools)パラダイムとして再構成するTAR-FAS(Tool-Augmented Reasoning FAS)フレームワークを提案する。
この目的のために、ツール拡張データアノテーションパイプラインを設計し、マルチターンツール利用推論トラジェクトリを含むToolFAS-16Kデータセットを構築する。
さらに,Diverse-Tool Group Relative Policy Optimization (DT-GRPO) というツール対応のFASトレーニングパイプラインを導入し,モデルが効率的なツール使用を自律的に学習できるようにする。
挑戦的な1対11のクロスドメインプロトコルの下での大規模な実験により、TAR-FASは信頼性の高いスプーフ検出のためのきめ細かい視覚的調査を提供しながら、SOTA性能を達成することが示された。
関連論文リスト
- ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection [47.259066449806866]
VisTAは新しい強化学習フレームワークで、視覚エージェントが経験的パフォーマンスに基づいた多様なライブラリのツールを動的に探索し、選択し、組み合わせることを可能にする。
トレーニング不要のベースラインよりも,VisTAが大幅なパフォーマンス向上を実現していることを示す。
これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
論文 参考訳(メタデータ) (2025-05-26T17:59:17Z) - MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution [36.79921476565535]
VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。
EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。
VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2025-05-04T06:58:21Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文 参考訳(メタデータ) (2024-02-26T16:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。