論文の概要: PA-FAS: Towards Interpretable and Generalizable Multimodal Face Anti-Spoofing via Path-Augmented Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.17927v1
- Date: Sat, 22 Nov 2025 05:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.518562
- Title: PA-FAS: Towards Interpretable and Generalizable Multimodal Face Anti-Spoofing via Path-Augmented Reinforcement Learning
- Title(参考訳): PA-FAS:パス強化強化学習による解釈可能で一般化可能なマルチモーダル顔アンチスプーフィングを目指して
- Authors: Yingjie Ma, Xun Lin, Yong Xu, Weicheng Xie, Zitong Yu,
- Abstract要約: Face Anti-Spoofing (FAS) は、最近マルチモーダル融合、クロスドメイン一般化、解釈可能性において進歩している。
本稿では,限定アノテーションから高品質な拡張推論シーケンスを構築することにより推論経路を向上させるPA-FASを提案する。
また,SFT中の回答シャッフル機構を導入し,表面的な手がかりを使わずに総合的なマルチモーダル解析を強制する。
- 参考スコア(独自算出の注目度): 42.24912525813944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face anti-spoofing (FAS) has recently advanced in multimodal fusion, cross-domain generalization, and interpretability. With large language models and reinforcement learning (RL), strategy-based training offers new opportunities to jointly model these aspects. However, multimodal reasoning is more complex than unimodal reasoning, requiring accurate feature representation and cross-modal verification while facing scarce, high-quality annotations, which makes direct application of RL sub-optimal. We identify two key limitations of supervised fine-tuning plus RL (SFT+RL) for multimodal FAS: (1) limited multimodal reasoning paths restrict the use of complementary modalities and shrink the exploration space after SFT, weakening the effect of RL; and (2) mismatched single-task supervision versus diverse reasoning paths causes reasoning confusion, where models may exploit shortcuts by mapping images directly to answers and ignoring the intended reasoning. To address this, we propose PA-FAS, which enhances reasoning paths by constructing high-quality extended reasoning sequences from limited annotations, enriching paths and relaxing exploration constraints. We further introduce an answer-shuffling mechanism during SFT to force comprehensive multimodal analysis instead of using superficial cues, thereby encouraging deeper reasoning and mitigating shortcut learning. PA-FAS significantly improves multimodal reasoning accuracy and cross-domain generalization, and better unifies multimodal fusion, generalization, and interpretability for trustworthy FAS.
- Abstract(参考訳): Face Anti-Spoofing (FAS) は、最近マルチモーダル融合、クロスドメイン一般化、解釈可能性において進歩している。
大きな言語モデルと強化学習(RL)によって、戦略ベースのトレーニングはこれらの側面を共同でモデル化する新たな機会を提供する。
しかし、マルチモーダル推論は単項推論よりも複雑であり、精度の高い特徴表現とクロスモーダルな検証が必要である。
マルチモーダルFASにおける教師付き微調整+RL(SFT+RL)の2つの重要な制限を同定する: 1) 限定マルチモーダル推論経路は相補的モダリティの使用を制限し、SFT後の探索空間を縮小し、RLの効果を弱める。
そこで我々は,限定アノテーションから高品質な拡張推論シーケンスを構築し,経路を充実させ,探索制約を緩和することで推論経路を向上させるPA-FASを提案する。
さらに,SFTにおける解答シャッフル機構を導入し,表面的手がかりを使わずに総合的マルチモーダル分析を強制し,より深い推論とショートカット学習の緩和を図る。
PA-FASは、マルチモーダル推論精度とクロスドメインの一般化を著しく改善し、信頼に値するFASに対するマルチモーダル融合、一般化、解釈可能性を改善する。
関連論文リスト
- Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning [20.515599491717442]
マルチモーダル推論モデル学習のためのtextbfMetis-RISE (textbfRL textbfSFT textbfEnhances) を提案する。
論文 参考訳(メタデータ) (2025-06-16T02:56:13Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL [32.67667242745463]
規則に基づく多モーダル推論のための2段階のフレームワークをtextbfFoundational Reasoning Enhancement (FRE) と textbfMultimodal Generalization Training (MGT) で提案する。
Qwen2.5-VL-Instruct-3Bの実験では、LMM-R1はマルチモーダルとテキストのみのベンチマークでそれぞれ平均4.83%、平均4.5%向上し、複雑なフットボールゲームでは3.63%向上した。
論文 参考訳(メタデータ) (2025-03-10T17:04:14Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。