論文の概要: EX-FIQA: Leveraging Intermediate Early eXit Representations from Vision Transformers for Face Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2604.22842v1
- Date: Tue, 21 Apr 2026 13:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.980923
- Title: EX-FIQA: Leveraging Intermediate Early eXit Representations from Vision Transformers for Face Image Quality Assessment
- Title(参考訳): EX-FIQA:顔画像品質評価のための視覚変換器からの中間eXit表現の活用
- Authors: Guray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Andrea Atzori, Fadi Boutros, Naser Damer,
- Abstract要約: 中間表現が早期出口機構とスコア融合戦略を通じて顔品質評価にどのように貢献するかを示す。
複数の変圧器ブロックの品質予測をアーキテクチャ変更や追加トレーニングなしに組み合わせたスコア融合フレームワークを提案する。
我々の研究は、顔分析において深い特徴のみが重要であるという従来の知恵に挑戦し、中間表現には品質評価のための貴重な情報が含まれていることを明らかにした。
- 参考スコア(独自算出の注目度): 17.74964478362525
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Face Image Quality Assessment is crucial for reliable face recognition systems, yet existing Vision Transformer-based approaches rely exclusively on final-layer representations, ignoring quality-relevant information captured at intermediate network depths. This paper presents the first comprehensive investigation of how intermediate representations within ViTs contribute to face quality assessment through early exit mechanisms and score fusion strategies. We systematically analyze all twelve transformer blocks of ViT-FIQA architectures, demonstrating that different depths capture distinct and complementary quality-relevant information, as evidenced by varying attention patterns and performance characteristics across network layers. We propose a score fusion framework that combines quality predictions from multiple transformer blocks without architectural modifications or additional training. Our early exit analysis reveals optimal performance-efficiency trade-offs, enabling significant computational savings while maintaining competitive performance. Through extensive evaluation across eight benchmark datasets using four FR models, we demonstrate that our fusion strategy improves upon single-exit approaches. Our proposed quality fusion approach employs depth-weighted averaging that assigns progressively higher importance to deeper transformer blocks, achieving the best quality assessment performance by effectively leveraging the hierarchical nature of feature learning in ViTs. Our work challenges the conventional wisdom that only deep features matter for face analysis, revealing that intermediate representations contain valuable information for quality assessment. The proposed framework offers practical benefits for real-world biometric systems by enabling adaptive computation based on resource constraints while maintaining competitive quality assessment capabilities.
- Abstract(参考訳): 顔画像品質評価は、信頼できる顔認識システムには不可欠であるが、既存のVision Transformerベースのアプローチは、中間ネットワーク深度で取得した品質関連情報を無視して、最終層表現にのみ依存している。
本稿では,ViT内の中間表現が早期終了機構とスコア融合戦略を通じて顔品質評価にどのように貢献するかを,初めて包括的に検討する。
ネットワーク層にまたがる異なる注意パターンや性能特性から,異なる深度で相補的な品質関連情報を捕捉できることを実証し,12個のVT-FIQAアーキテクチャのトランスフォーマーブロックを体系的に解析した。
複数の変圧器ブロックの品質予測をアーキテクチャ変更や追加トレーニングなしに組み合わせたスコア融合フレームワークを提案する。
アーリーエグジット分析により、最適な性能・効率のトレードオフが明らかとなり、競争性能を維持しながら、計算の大幅な削減が可能となった。
4つのFRモデルを用いて8つのベンチマークデータセットを広範囲に評価することにより、融合戦略が単一出口アプローチにより改善されることを実証する。
提案手法では,より深いトランスフォーマーブロックに徐々に重要度を割り当てる深さ重み付き平均値を用いて,ViTにおける特徴学習の階層的性質を効果的に活用し,最高の品質評価性能を実現する。
我々の研究は、顔分析において深い特徴のみが重要であるという従来の知恵に挑戦し、中間表現には品質評価のための貴重な情報が含まれていることを明らかにした。
提案フレームワークは,資源制約に基づく適応計算を可能とし,競争力のある品質評価能力を維持することにより,実世界のバイオメトリックシステムに実用的な利点を提供する。
関連論文リスト
- ATTN-FIQA: Interpretable Attention-based Face Image Quality Assessment with Vision Transformers [19.095360516976847]
顔画像品質評価(FIQA)は、顔サンプルの認識能力を評価することを目的としており、信頼性の高い顔認識(FR)システムに必須である。
近年の研究では、これらのアーキテクチャは本質的に、空間的重要性を自然にコードする注意パターンを持つ有能な学習者として機能していることが強調されている。
ATTN-FIQAは,事前学習したビジョントランスフォーマーに基づく顔認識モデルから得られたソフトマックス前注目スコアが品質指標として機能するかどうかを調査する,新しいトレーニングフリーアプローチである。
論文 参考訳(メタデータ) (2026-04-21T12:46:16Z) - Perceptual Quality Optimization of Image Super-Resolution [31.948003749760105]
シングルイメージ超解像(SR)は深層学習において顕著な進歩を遂げているが、ほとんどのアプローチは歪み指向の損失や知覚的先行に頼っている。
そこで本稿では,SRを人間の嗜好的品質に明示的に最適化する,テキスト有効知覚双方向注意ネットワーク(Efficient Perceptual Bi-directional Attention Network, EPBAN)を提案する。
論文 参考訳(メタデータ) (2026-02-25T01:17:24Z) - Integrating ConvNeXt and Vision Transformers for Enhancing Facial Age Estimation [10.995974662579124]
我々は、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を組み合わせた新しいハイブリッドアーキテクチャを提案する。
提案したConvNeXt-ViTハイブリッドソリューションは,ベンチマーク年齢推定データセットを用いて徹底的に評価した。
以上の結果から,ConvNeXt-ViTハイブリッドは従来の手法よりも優れているだけでなく,将来的な年齢推定の基盤となることが示唆された。
論文 参考訳(メタデータ) (2025-10-31T09:36:28Z) - DEFNet: Multitasks-based Deep Evidential Fusion Network for Blind Image Quality Assessment [5.517243185525322]
ブラインド画像品質評価(BIQA)手法は、しばしば性能向上のために補助的なタスクを組み込む。
本稿では,BIQAのためのマルチタスクに基づくディープ・エビデンシャル・フュージョン・ネットワーク(DEFNet)を提案する。
論文 参考訳(メタデータ) (2025-07-25T16:36:45Z) - EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。
現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-06-13T08:00:54Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - A Lightweight Parallel Framework for Blind Image Quality Assessment [7.9562077122537875]
ブラインド画像品質評価(BIQA)のための軽量並列フレームワーク(LPF)を提案する。
まず,事前学習した特徴抽出ネットワークを用いて視覚特徴を抽出し,視覚特徴を変換するための簡易で効果的な特徴埋め込みネットワーク(FEN)を構築した。
本稿では,サンプルレベルのカテゴリ予測タスクとバッチレベルの品質比較タスクを含む,新たな2つのサブタスクを提案する。
論文 参考訳(メタデータ) (2024-02-19T10:56:58Z) - Towards Fine-grained Human Pose Transfer with Detail Replenishing
Network [96.54367984986898]
ヒューマン・ポーズ・トランスファー(HPT)は、ファッションデザイン、メディア制作、オンライン広告、バーチャルリアリティーにおいて大きな可能性を秘めている研究分野である。
既存のHPT手法は、詳細不足、内容の曖昧さ、スタイルの不整合という3つの根本的な問題に悩まされることが多い。
我々は、より難易度が高く実用的なHPTセッティングを開発し、よりセマンティックな忠実さと詳細な補充に焦点を当てた、FHPT(F Fine-fine Human Pose Transfer)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-26T03:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。