論文の概要: ATTN-FIQA: Interpretable Attention-based Face Image Quality Assessment with Vision Transformers
- arxiv url: http://arxiv.org/abs/2604.22841v1
- Date: Tue, 21 Apr 2026 12:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.979465
- Title: ATTN-FIQA: Interpretable Attention-based Face Image Quality Assessment with Vision Transformers
- Title(参考訳): ATTN-FIQA:視覚変換器による意図に基づく顔画像品質評価
- Authors: Guray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Marco Huber, Andrea Atzori, Naser Damer, Fadi Boutros,
- Abstract要約: 顔画像品質評価(FIQA)は、顔サンプルの認識能力を評価することを目的としており、信頼性の高い顔認識(FR)システムに必須である。
近年の研究では、これらのアーキテクチャは本質的に、空間的重要性を自然にコードする注意パターンを持つ有能な学習者として機能していることが強調されている。
ATTN-FIQAは,事前学習したビジョントランスフォーマーに基づく顔認識モデルから得られたソフトマックス前注目スコアが品質指標として機能するかどうかを調査する,新しいトレーニングフリーアプローチである。
- 参考スコア(独自算出の注目度): 19.095360516976847
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Face Image Quality Assessment (FIQA) aims to assess the recognition utility of face samples and is essential for reliable face recognition (FR) systems. Existing approaches require computationally expensive procedures such as multiple forward passes, backpropagation, or additional training, and only recent work has focused on the use of Vision Transformers. Recent studies highlighted that these architectures inherently function as saliency learners with attention patterns naturally encoding spatial importance. This work proposes ATTN-FIQA, a novel training-free approach that investigates whether pre-softmax attention scores from pre-trained Vision Transformer-based face recognition models can serve as quality indicators. We hypothesize that attention magnitudes intrinsically encode quality: high-quality images with discriminative facial features enable strong query-key alignments producing focused, high-magnitude attention patterns, while degraded images generate diffuse, low-magnitude patterns. ATTN-FIQA extracts pre-softmax attention matrices from the final transformer block, aggregate multi-head attention information across all patches, and compute image-level quality scores through simple averaging, requiring only a single forward pass through pre-trained models without architectural modifications, backpropagation, or additional training. Through comprehensive evaluation across eight benchmark datasets and four FR models, this work demonstrates that attention-based quality scores effectively correlate with face image quality and provide spatial interpretability, revealing which facial regions contribute most to quality determination.
- Abstract(参考訳): 顔画像品質評価(FIQA)は、顔サンプルの認識能力を評価することを目的としており、信頼性の高い顔認識(FR)システムに必須である。
既存のアプローチでは、複数のフォワードパス、バックプロパゲーション、追加のトレーニングなどの計算コストのかかる手順が必要であり、ビジョントランスフォーマーの使用に焦点が当てられているのは最近の研究のみである。
近年の研究では、これらのアーキテクチャは本質的に、空間的重要性を自然にコードする注意パターンを持つ有能な学習者として機能していることが強調されている。
ATTN-FIQAは,事前学習したビジョントランスフォーマーに基づく顔認識モデルから得られたソフトマックス前注目スコアが品質指標として機能するかどうかを調査する,新しいトレーニングフリーアプローチである。
顔の特徴を識別する高品質な画像は、集中した高輝度の注目パターンを生成する強力なクエリキーアライメントを可能にする一方、劣化した画像は、拡散して低輝度のパターンを生成する。
ATTN-FIQAは、最終トランスフォーマーブロックから事前の注意行列を抽出し、全パッチにわたってマルチヘッドの注意情報を集約し、単純な平均化によって画像レベルの品質スコアを計算する。
8つのベンチマークデータセットと4つのFRモデルにわたる総合的な評価を通じて、注意に基づく品質スコアが顔画像の品質と効果的に相関し、空間的解釈可能性を提供し、どの顔領域が品質決定に最も寄与しているかを明らかにする。
関連論文リスト
- Surveillance Facial Image Quality Assessment: A Multi-dimensional Dataset and Lightweight Model [59.39390911456143]
監視顔画像品質評価(SFIQA)に関する初の総合的研究を提案する。
SFIQA-Benchは、現実世界のシナリオで3つの広く配備された監視カメラによって撮影された5,004枚の監視顔画像で構成されている。
ノイズ、シャープネス、カラフルネス、コントラスト、忠実度、全体的な品質を含む6次元品質評価を主観的な実験により収集する。
論文 参考訳(メタデータ) (2026-02-07T06:51:03Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Blind Image Quality Assessment via Transformer Predicted Error Map and
Perceptual Quality Token [19.67014524146261]
近年,非参照画像品質評価(NR-IQA)が注目されている。
予測された客観的誤差マップと知覚的品質トークンを用いたTransformerベースのNR-IQAモデルを提案する。
提案手法は, 実画像データベースと合成画像データベースの両方において, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-05-16T11:17:54Z) - CR-FIQA: Face Image Quality Assessment by Learning Sample Relative
Classifiability [2.3624125155742055]
本稿では,学習過程における内部ネットワーク観測を学習する新しい学習パラダイムを提案する。
提案するCR-FIQAは,このパラダイムを用いて,サンプルの顔画像品質を,その相対的分類可能性の予測により推定する。
本研究では, 最先端(SOTA) FIQAアルゴリズムよりもCR-FIQAの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-12-13T12:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。