論文の概要: ViT-FIQA: Assessing Face Image Quality using Vision Transformers
- arxiv url: http://arxiv.org/abs/2508.13957v1
- Date: Tue, 19 Aug 2025 15:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.996897
- Title: ViT-FIQA: Assessing Face Image Quality using Vision Transformers
- Title(参考訳): ViT-FIQA:視覚変換器を用いた顔画像品質の評価
- Authors: Andrea Atzori, Fadi Boutros, Naser Damer,
- Abstract要約: 顔画像品質評価(FIQA)は、顔認識(FR)システムにおける顔画像の有用性を予測することを目的としている。
ViT-FIQAは、学習可能なクオリティトークンを通じてFRに最適化された標準のViTバックボーンを拡張する新しいアプローチである。
挑戦的なベンチマークとCNNとViTベースのアーキテクチャを含むいくつかのFRモデルの実験は、ViT-FIQAが一貫してトップレベルのパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 8.045296450065019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face Image Quality Assessment (FIQA) aims to predict the utility of a face image for face recognition (FR) systems. State-of-the-art FIQA methods mainly rely on convolutional neural networks (CNNs), leaving the potential of Vision Transformer (ViT) architectures underexplored. This work proposes ViT-FIQA, a novel approach that extends standard ViT backbones, originally optimized for FR, through a learnable quality token designed to predict a scalar utility score for any given face image. The learnable quality token is concatenated with the standard image patch tokens, and the whole sequence is processed via global self-attention by the ViT encoders to aggregate contextual information across all patches. At the output of the backbone, ViT-FIQA branches into two heads: (1) the patch tokens are passed through a fully connected layer to learn discriminative face representations via a margin-penalty softmax loss, and (2) the quality token is fed into a regression head to learn to predict the face sample's utility. Extensive experiments on challenging benchmarks and several FR models, including both CNN- and ViT-based architectures, demonstrate that ViT-FIQA consistently achieves top-tier performance. These results underscore the effectiveness of transformer-based architectures in modeling face image utility and highlight the potential of ViTs as a scalable foundation for future FIQA research https://cutt.ly/irHlzXUC.
- Abstract(参考訳): 顔画像品質評価(FIQA)は、顔認識(FR)システムにおける顔画像の有用性を予測することを目的としている。
最先端のFIQA手法は、主に畳み込みニューラルネットワーク(CNN)に依存しており、ViTアーキテクチャの可能性は未解明のままである。
この研究は、任意の顔画像に対するスカラーユーティリティスコアを予測するために設計された学習可能な品質トークンを通じて、FRに最適化された標準ViTバックボーンを拡張する新しいアプローチであるViT-FIQAを提案する。
学習可能な品質トークンは、標準のイメージパッチトークンと連結され、全シーケンスは、ViTエンコーダによってグローバルな自己アテンションを通して処理され、すべてのパッチにわたってコンテキスト情報を集約する。
バックボーンの出力において、VT-FIQAは、2つのヘッドに分岐する:(1)パッチトークンが完全に接続された層を通過してマージン・ペナルティ・ソフトマックス・ロスを介して識別顔表現を学習し、(2)品質トークンが回帰ヘッドに送られ、顔サンプルの有用性を予測する。
挑戦的なベンチマークとCNNとViTベースのアーキテクチャを含むいくつかのFRモデルに関する大規模な実験は、ViT-FIQAが一貫してトップレベルのパフォーマンスを達成することを実証している。
これらの結果は、顔画像ユーティリティのモデリングにおけるトランスフォーマーベースのアーキテクチャの有効性を強調し、将来のFIQA研究のスケーラブルな基盤としてのViTsの可能性を強調している。
関連論文リスト
- VORTEX: Challenging CNNs at Texture Recognition by using Vision Transformers with Orderless and Randomized Token Encodings [1.6594406786473057]
視覚変換器(ViT)は数年前に導入されたが、そのテクスチャ認識能力についてはほとんど知られていない。
テクスチャ解析にViTを効果的に活用するVORTEXを提案する。
VORTEXを9つの多様なテクスチャデータセット上で評価し、SOTAの性能を達成または超越する能力を実証した。
論文 参考訳(メタデータ) (2025-03-09T00:36:02Z) - Wavelet-Based Image Tokenizer for Vision Transformers [14.346214923088855]
非重複パッチワイド畳み込みはビジョントランスフォーマー(ViT)モデルのデフォルト画像トークンである。
本稿ではウェーブレット変換に基づく新しい画像トークン化手法を提案する。
新たなトークン機構を備えたViTモデルは,ImageNet検証セットのトレーニングスループットの向上とトップ1精度の向上を実現する。
論文 参考訳(メタデータ) (2024-05-28T21:45:46Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Attentions Help CNNs See Better: Attention-based Hybrid Image Quality
Assessment Network [20.835800149919145]
画像品質評価(IQA)アルゴリズムは、画像品質に対する人間の認識を定量化することを目的としている。
GAN(Generative Adversarial Network)によって生成された歪み画像を、一見現実的なテクスチャで評価する際の性能低下がある。
本稿では,AHIQ(Hybrid Image Quality Assessment Network)を提案する。
論文 参考訳(メタデータ) (2022-04-22T03:59:18Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。