論文の概要: Saliency-based Video Summarization for Face Anti-spoofing
- arxiv url: http://arxiv.org/abs/2308.12364v1
- Date: Wed, 23 Aug 2023 18:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 16:36:57.554876
- Title: Saliency-based Video Summarization for Face Anti-spoofing
- Title(参考訳): 対スプーフィングのためのサリエンシーに基づくビデオ要約
- Authors: Usman Muhammad, Mourad Oussalah, Md Ziaul Hoque and Jorma Laaksonen
- Abstract要約: 本稿では,ディープラーニングモデルの性能向上と効率向上を目的とした,対面型アンチスプーフィングタスクの映像要約手法を提案する。
視覚的サリエンシ理論に着想を得て,視覚的サリエンシを利用してディープラーニングモデルの性能と効率を向上させることを目的とした,対面型アンチスプーフィングタスクの映像要約手法を提案する。
提案手法の有効性を検証するため, 単純なディープラーニングアーキテクチャ(CNN-RNN)を用い, 実験結果から, 難解な5つの対面型アンチスプーフィングデータセットの最先端性能を示した。
- 参考スコア(独自算出の注目度): 4.730428911461921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the growing availability of face anti-spoofing databases, researchers
are increasingly focusing on video-based methods that use hundreds to thousands
of images to assess their impact on performance. However, there is no clear
consensus on the exact number of frames in a video required to improve the
performance of face anti-spoofing tasks. Inspired by the visual saliency
theory, we present a video summarization method for face anti-spoofing tasks
that aims to enhance the performance and efficiency of deep learning models by
leveraging visual saliency. In particular, saliency information is extracted
from the differences between the Laplacian and Wiener filter outputs of the
source images, enabling identification of the most visually salient regions
within each frame. Subsequently, the source images are decomposed into base and
detail layers, enhancing representation of important information. The weighting
maps are then computed based on the saliency information, indicating the
importance of each pixel in the image. By linearly combining the base and
detail layers using the weighting maps, the method fuses the source images to
create a single representative image that summarizes the entire video. The key
contribution of our proposed method lies in demonstrating how visual saliency
can be used as a data-centric approach to improve the performance and
efficiency of face presentation attack detection models. By focusing on the
most salient images or regions within the images, a more representative and
diverse training set can be created, potentially leading to more effective
models. To validate the method's effectiveness, a simple deep learning
architecture (CNN-RNN) was used, and the experimental results showcased
state-of-the-art performance on five challenging face anti-spoofing datasets.
- Abstract(参考訳): 顔の偽造防止データベースの普及に伴い、研究者たちは、数百から数千の画像を使ってパフォーマンスへの影響を評価するビデオベースの手法に、ますます力を入れている。
しかし、対面防止タスクのパフォーマンスを向上させるために必要なビデオのフレーム数について、明確なコンセンサスはない。
そこで本研究では,視覚サリエンシーを活用し,ディープラーニングモデルの性能と効率を向上させることを目的とした,対スプーフィング課題に対する映像要約手法を提案する。
特に、ソース画像のラプラシアンとウィーナーフィルタの出力の違いからサリエンシー情報を抽出し、各フレーム内の最も視覚的なサリエント領域の識別を可能にする。
その後、ソースイメージをベース層とディテール層に分解し、重要な情報の表現を強化する。
次に、重み付けマップは、画像中の各ピクセルの重要性を示す唾液度情報に基づいて計算される。
重み付けマップを用いてベース層とディテール層を線形に結合することにより、ソース画像を融合させ、ビデオ全体を要約する単一の代表画像を生成する。
提案手法の主な貢献は、顔提示攻撃検出モデルの性能と効率を改善するために、データ中心のアプローチとして視覚的サリエンシをいかに活用できるかを示すことである。
画像内の最も優れた画像や領域に集中することで、より代表的で多様なトレーニングセットが作成でき、より効果的なモデルにつながる可能性がある。
提案手法の有効性を検証するため, 単純なディープラーニングアーキテクチャ(CNN-RNN)を用い, 実験結果から, 難解な5つの顔データに対して, 最先端の性能を示した。
関連論文リスト
- Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Foveation in the Era of Deep Learning [6.602118206533142]
本稿では,グラフ畳み込みネットワークを利用してフェーブ化された画像を処理する,エンドツーエンドで微分可能なアクティブ・ビジョン・アーキテクチャを提案する。
我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。
我々のモデルは最先端のCNNと、同等のパラメータと与えられたピクセルや予算の視覚アーキテクチャより優れています。
論文 参考訳(メタデータ) (2023-12-03T16:48:09Z) - Detecting Generated Images by Real Images Only [64.12501227493765]
既存の画像検出手法は、生成画像中の視覚的アーティファクトを検出したり、大規模なトレーニングによって、実画像と生成画像の両方から識別的特徴を学習する。
本稿では,新たな視点から生成した画像検出問題にアプローチする。
実画像の共通性を見つけ、特徴空間内の密接な部分空間にマッピングすることで、生成した画像は生成モデルに関係なくサブ空間の外側に投影される。
論文 参考訳(メタデータ) (2023-11-02T03:09:37Z) - Multi-modal reward for visual relationships-based image captioning [4.354364351426983]
本稿では、画像のシーングラフから抽出した視覚的関係情報を画像の空間的特徴マップに融合させることにより、画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。
次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案するネットワークの深層強化学習のためにマルチモーダル報酬関数を導入する。
論文 参考訳(メタデータ) (2023-03-19T20:52:44Z) - A survey on facial image deblurring [3.6775758132528877]
顔画像がぼやけていると、顔認識などのハイレベルな視覚タスクに大きな影響を与えます。
本稿では,最近発表された顔画像の難読化手法について概説し,その大部分はディープラーニングに基づくものである。
本稿では,データセットとメトリクスにおける古典的手法の性能を示すとともに,モデルに基づく手法と学習に基づく手法の違いについて,簡単な議論を行う。
論文 参考訳(メタデータ) (2023-02-10T02:24:56Z) - Efficient Textured Mesh Recovery from Multiple Views with Differentiable
Rendering [8.264851594332677]
マルチビュー画像からテクスチャメッシュを復元する手法を提案する。
学習ベース多視点ステレオアルゴリズムにより予測される深度との差を最小化することにより形状形状を最適化する。
形状や色に対する暗黙的なニューラル表現とは対照的に,物体の光と反射を共同で推定する物理ベース逆レンダリング方式を導入する。
論文 参考訳(メタデータ) (2022-05-25T03:33:55Z) - ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel
Appearance Invariant Semantic Representations [77.3590853897664]
本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味論的にリッチな視覚埋め込みを学習するための自己指導的手法を提案する。
論文 参考訳(メタデータ) (2021-11-24T12:27:30Z) - Face Anti-Spoofing Via Disentangled Representation Learning [90.90512800361742]
顔認識システムのセキュリティには、顔の偽造が不可欠だ。
本稿では,画像から生意気な特徴やコンテンツの特徴を乱す顔のアンチ・スプーフィングの新たな視点を提案する。
論文 参考訳(メタデータ) (2020-08-19T03:54:23Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z) - Cross-Identity Motion Transfer for Arbitrary Objects through
Pose-Attentive Video Reassembling [40.20163225821707]
ソース画像とドライビングビデオが与えられた場合、このネットワークは、ドライビングビデオの動きに応じて、ソース画像中の被写体をアニメーション化する。
注意機構では、学習した音源のキーポイントと駆動画像との密接な類似性が計算される。
自己教師型学習のトレーニングテストの相違を低減するため、新しいクロスアイデンティティトレーニングスキームが導入された。
論文 参考訳(メタデータ) (2020-07-17T07:21:12Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。