Fugu-MT 論文翻訳(概要): Attention-Aware Transformer-Based Aggregation Network for Video Periocular Recognition

論文の概要: Attention-Aware Transformer-Based Aggregation Network for Video Periocular Recognition

arxiv url: http://arxiv.org/abs/2605.16550v1
Date: Fri, 15 May 2026 18:47:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:46.619948
Title: Attention-Aware Transformer-Based Aggregation Network for Video Periocular Recognition
Title（参考訳）: 視線認識のための注意認識型トランスフォーマーを用いたアグリゲーションネットワーク
Authors: Luiz G F Carreira, Breno A Mariano, Victor H C de Melo, David Menotti, William Robson Schwartz,
Abstract要約: 本稿では,監視環境における映像に基づく近視認識のための注意認識手法を提案する。フレームワークは2つの主要なモジュールで構成されている。公開されているCOX Faceデータセットの実験は、提案手法の堅牢性を示している。
参考スコア（独自算出の注目度）: 1.4942034077785833
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video periocular recognition is the task of recognizing an individual's identity based on the region around an individual's eyes. The periocular area is one of the most discriminative regions of the human face, making it suitable for recognition tasks. Its use as a biometric modality has emerged as an alternative, especially in surveillance scenarios where conventional biometric traits such as face or iris recognition become unfeasible due to unconstrained acquisition conditions. This paper proposes an attention-aware approach for video-based periocular recognition in surveillance environments. The framework consists of two main modules: feature embedding and aggregation. The feature embedding module is a deep convolutional neural network that maps periocular data to feature vectors. The aggregation module is an encoder-only transformer that adaptively learns to aggregate frame-level features into a single video representation and a feature vector for the still reference image. Experiments on the publicly available COX Face dataset show the robustness of the proposed method, consistently outperforming naive aggregation schemes. In the best scenario, the approach achieves $99.8\%$ of TPR@$1e^{-1}$ and $96.6\%$ of Rank-5.
Abstract（参考訳）: ビデオ近視認識は、個人の目を取り巻く領域に基づいて、個人のアイデンティティを認識するタスクである。眼周囲領域は人間の顔の最も識別性の高い領域の1つであり、認識タスクに適している。バイオメトリック・モダリティとしての利用は、特に顔や虹彩の認識のような従来の生体認証特性が、制約のない取得条件によって実現不可能になる監視シナリオにおいて、代替として現れてきた。本稿では,監視環境における映像に基づく近視認識のための注意認識手法を提案する。フレームワークは2つの主要なモジュールで構成されている。特徴埋め込みモジュールは、近視データを特徴ベクトルにマッピングする深層畳み込みニューラルネットワークである。集約モジュールは、フレームレベルの特徴を単一のビデオ表現と静止画像の特徴ベクトルに適応的に集約するエンコーダのみの変換器である。公開されているCOX Faceデータセットの実験は、提案手法の堅牢性を示し、ナイーブ・アグリゲーション・スキームを一貫して上回っている。最良のシナリオでは、アプローチはTPR@$1e^{-1}$の99.8\%$とランク5の9.6\%$を達成する。

関連論文リスト

Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文参考訳（メタデータ） (2024-08-27T12:53:25Z)
Learning Expressive And Generalizable Motion Features For Face Forgery Detection [52.54404879581527]
本稿では,既存のビデオ分類手法に基づく,シーケンスに基づく効果的な偽造検出フレームワークを提案する。動作特徴をより表現しやすくするために,別の動作整合ブロックを提案する。一般的なビデオ分類ネットワークを3つの顔偽造データに対して有望な結果を達成する。
論文参考訳（メタデータ） (2024-03-08T09:25:48Z)
ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for Human-Object Interaction Detection [20.983998911754792]
2段階のHuman-Object Interaction (HOI)検出器は1段階法よりも性能が低い。これらの問題を解決するために視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。 ViPLOは2つの公開ベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (2023-04-17T09:44:54Z)
Multimodal Adaptive Fusion of Face and Gait Features using Keyless attention based Deep Neural Networks for Human Identification [67.64124512185087]
歩行のような軟式生体認証は、人物認識や再識別といった監視作業において顔に広く使われている。本稿では,キーレス注意深層ニューラルネットワークを活用することで,歩行と顔のバイオメトリック・キューを動的に組み込むための適応型マルチバイオメトリック・フュージョン戦略を提案する。
論文参考訳（メタデータ） (2023-03-24T05:28:35Z)
Differentiable Frequency-based Disentanglement for Aerial Video Action Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-09-15T22:16:52Z)
Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文参考訳（メタデータ） (2022-09-12T17:17:49Z)
An Efficient Method for Face Quality Assessment on the Edge [1.7188280334580197]
エッジデバイスに対する実践的なアプローチは、認識への適合性に応じて、これらのアイデンティティの検出を優先すべきである。顔のランドマーク検出ネットワークに1つの層を付加するだけで、顔の品質スコアの回帰が提案される。追加のコストがほとんどないため、顔の品質スコアは、この単一の層をトレーニングすることで得られる。
論文参考訳（メタデータ） (2022-07-19T18:29:43Z)
Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。 2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文参考訳（メタデータ） (2022-07-19T03:31:13Z)
Attribute-Based Deep Periocular Recognition: Leveraging Soft Biometrics to Improve Periocular Recognition [24.267703297385413]
本稿では属性に基づく深部眼球認識(ADPR)と呼ばれる新しい深部眼球認識フレームワークを提案する。 ADPRはソフトバイオメトリックスを予測し、その予測を眼周囲認識アルゴリズムに組み込んで、高い精度で眼周囲画像から識別する。実験結果から,本手法は野生環境下での生体計測による近視認識方法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2021-11-02T01:51:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。