論文の概要: Can Vision Transformers with ResNet's Global Features Fairly Authenticate Demographic Faces?
- arxiv url: http://arxiv.org/abs/2506.05383v1
- Date: Tue, 03 Jun 2025 09:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.112092
- Title: Can Vision Transformers with ResNet's Global Features Fairly Authenticate Demographic Faces?
- Title(参考訳): ResNetのグローバル機能を備えたビジョントランスフォーマーは、デモグラフィックフェイスを公平に認証できるか?
- Authors: Abu Sufian, Marco Leo, Cosimo Distante, Anirudha Ghosh, Debaditya Barman,
- Abstract要約: 事前学習したグローバルな特徴を活かしたビジョントランスフォーマー(ViT)とResNetは、異なる人口統計学的側面をかなり認証できるかどうかを検討した。
私たちは、Facebook、Google、Microsoftの3つの事前トレーニングされた最先端(SOTA)のViTファンデーションモデルと、ResNet-18のグローバル機能を使用しました。
その結果,人種・民族・性別・年齢の異なるデータセットにまたがって結果が得られた。
- 参考スコア(独自算出の注目度): 2.341815198514192
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Biometric face authentication is crucial in computer vision, but ensuring fairness and generalization across demographic groups remains a big challenge. Therefore, we investigated whether Vision Transformer (ViT) and ResNet, leveraging pre-trained global features, can fairly authenticate different demographic faces while relying minimally on local features. In this investigation, we used three pre-trained state-of-the-art (SOTA) ViT foundation models from Facebook, Google, and Microsoft for global features as well as ResNet-18. We concatenated the features from ViT and ResNet, passed them through two fully connected layers, and trained on customized face image datasets to capture the local features. Then, we designed a novel few-shot prototype network with backbone features embedding. We also developed new demographic face image support and query datasets for this empirical study. The network's testing was conducted on this dataset in one-shot, three-shot, and five-shot scenarios to assess how performance improves as the size of the support set increases. We observed results across datasets with varying races/ethnicities, genders, and age groups. The Microsoft Swin Transformer backbone performed better among the three SOTA ViT for this task. The code and data are available at: https://github.com/Sufianlab/FairVitBio.
- Abstract(参考訳): 生体顔認証はコンピュータビジョンにおいて不可欠だが、人口統計学的グループ間の公正性と一般化を保証することは大きな課題だ。
そこで我々は,事前学習したグローバルな特徴を活用するビジョントランスフォーマー(ViT)とResNetが,局所的な特徴を最小限に頼りながら,異なる人口動態の面をかなり認証できるかどうかを検討した。
この調査では、Facebook、Google、Microsoftの3つの事前トレーニングされた最先端(SOTA)のViTファンデーションモデルと、ResNet-18のグローバル機能を使用しました。
ViTとResNetから機能を結合し、2つの完全に接続されたレイヤを通過し、ローカル機能を取得するためにカスタマイズされた顔画像データセットに基づいてトレーニングしました。
そして,バックボーン機能を組み込んだ新しいプロトタイプネットワークを設計した。
また、この経験的研究のために、新しい人口統計画像とクエリデータセットも開発した。
ネットワークのテストは、1ショット、3ショット、5ショットのシナリオでこのデータセット上で行われ、サポートセットのサイズが大きくなるにつれてパフォーマンスが向上するかを評価する。
その結果,人種・民族・性別・年齢の異なるデータセットにまたがって結果が得られた。
Microsoft Swin Transformerのバックボーンは、3つのSOTA ViTで改善された。
コードとデータは、https://github.com/Sufianlab/FairVitBio.comで入手できる。
関連論文リスト
- TGBFormer: Transformer-GraphFormer Blender Network for Video Object Detection [10.69410997096889]
本稿では,ビデオオブジェクト検出のためのTransformer-GraphFormer Blender Network (TGBFormer)を提案する。
まず,グローバルな文脈情報を集約する時空間変換モジュールを開発する。
第2に,局所的空間的および時間的関係を利用して特徴を集約する空間時空間グラフフォーマーモジュールを提案する。
第3に、トランスフォーマーベースのグローバル表現とGraphFormerベースのローカル表現を適応的に結合するグローバルローカル機能ブレンダーモジュールを設計する。
論文 参考訳(メタデータ) (2025-03-18T05:03:05Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - Playing to Vision Foundation Model's Strengths in Stereo Matching [13.887661472501618]
本研究は,視覚基礎モデル(VFM)をステレオマッチングに適用するための有効なアプローチを初めて探求した。
当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。
ViTAStereoは、エラーピクセルのパーセンテージで2番目に高いネットワークであるStereoBaseを約7.9%上回り、耐性は3ピクセルである。
論文 参考訳(メタデータ) (2024-04-09T12:34:28Z) - Grafting Vision Transformers [42.71480918208436]
ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
GrafTはグローバルな依存関係とネットワーク全体のマルチスケール情報を考慮している。
任意の深さで分岐する柔軟性があり、バックボーンのパラメータと計算の大部分を共有できる。
論文 参考訳(メタデータ) (2022-10-28T07:07:13Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。