論文の概要: Improved Ear Verification with Vision Transformers and Overlapping Patches
- arxiv url: http://arxiv.org/abs/2503.23275v1
- Date: Sun, 30 Mar 2025 01:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.028922
- Title: Improved Ear Verification with Vision Transformers and Overlapping Patches
- Title(参考訳): 視覚変換器と重なり合うパッチによる耳の検証の改善
- Authors: Deeksha Arun, Kagan Ozturk, Kevin W. Bowyer, Patrick Flynn,
- Abstract要約: 視覚変換器(ViT)は画像認識タスクで広く用いられているが、その認識効率は、重複するパッチに対する注意の欠如によって妨げられている。
本研究では,ViT-Tiny (ViT-T), ViT-Small (ViT-S), ViT-Base (ViT-B), ViT-Large (ViT-L) の構成を多様なデータセットで評価する。
その結果,48実験中44実験において,重なり合うパッチの重要性が示唆された。
- 参考スコア(独自算出の注目度): 6.143343929388887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ear recognition has emerged as a promising biometric modality due to the relative stability in appearance during adulthood. Although Vision Transformers (ViTs) have been widely used in image recognition tasks, their efficiency in ear recognition has been hampered by a lack of attention to overlapping patches, which is crucial for capturing intricate ear features. In this study, we evaluate ViT-Tiny (ViT-T), ViT-Small (ViT-S), ViT-Base (ViT-B) and ViT-Large (ViT-L) configurations on a diverse set of datasets (OPIB, AWE, WPUT, and EarVN1.0), using an overlapping patch selection strategy. Results demonstrate the critical importance of overlapping patches, yielding superior performance in 44 of 48 experiments in a structured study. Moreover, upon comparing the results of the overlapping patches with the non-overlapping configurations, the increase is significant, reaching up to 10% for the EarVN1.0 dataset. In terms of model performance, the ViT-T model consistently outperformed the ViT-S, ViT-B, and ViT-L models on the AWE, WPUT, and EarVN1.0 datasets. The highest scores were achieved in a configuration with a patch size of 28x28 and a stride of 14 pixels. This patch-stride configuration represents 25% of the normalized image area (112x112 pixels) for the patch size and 12.5% of the row or column size for the stride. This study confirms that transformer architectures with overlapping patch selection can serve as an efficient and high-performing option for ear-based biometric recognition tasks in verification scenarios.
- Abstract(参考訳): 耳の認識は、成人期における外観の相対的安定性により、有望な生体計測モダリティとして出現している。
視覚変換器(ViT)は画像認識のタスクで広く用いられているが、複雑な耳の特徴を捉える上で重要な重複パッチへの注意の欠如により、認識の効率が損なわれている。
本研究では,複数データセット (OPIB, AWE, WPUT, EarVN1.0) 上でのViT-Tiny (ViT-T), ViT-Small (ViT-S), ViT-Base (ViT-B), ViT-Large (ViT-L) の構成を重複パッチ選択戦略を用いて評価した。
以上の結果から,48実験中44実験において,重なり合うパッチの重要性が示唆された。
さらに、オーバーラップするパッチとオーバーラップしないコンフィギュレーションの結果を比較すると、EarVN1.0データセットで最大10%まで増加します。
モデル性能の面では、ViT-Tモデルは、AWE、WPUT、EarVN1.0データセット上のViT-S、ViT-B、ViT-Lモデルよりも一貫して優れていた。
最高スコアは、パッチサイズ28x28、ストライド14ピクセルで達成された。
このパッチストライド構成は、パッチサイズが正規化された画像領域(112x112ピクセル)の25%、ストライドの行サイズまたは列サイズが12.5%である。
本研究は、重なり合うパッチ選択を持つトランスフォーマーアーキテクチャが、検証シナリオにおける耳ベースの生体認証タスクにおいて、効率的かつ高性能な選択肢となることを確認した。
関連論文リスト
- Embedding Radiomics into Vision Transformers for Multimodal Medical Image Classification [10.627136212959396]
ビジョントランスフォーマー(ViT)は、自己注意を通じて長距離依存をモデル化することで、畳み込みモデルの強力な代替手段を提供する。
本稿では、放射能特徴とデータ駆動型視覚埋め込みをViTバックボーン内に組み込んだRE-ViT(Radiomics-Embedded Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2025-04-15T06:55:58Z) - RaViTT: Random Vision Transformer Tokens [0.41776442767736593]
視覚変換器(ViT)は、大きな注釈付きデータセットが利用できる画像分類問題にうまく適用されている。
既存のViTに組み込んだランダムパッチサンプリング戦略であるRaViTT(Random Vision Transformer Tokens)を提案する。
論文 参考訳(メタデータ) (2023-06-19T14:24:59Z) - Understanding Gaussian Attention Bias of Vision Transformers Using
Effective Receptive Fields [7.58745191859815]
イメージを分割したパッチのシーケンスとしてモデル化する視覚変換器(ViT)は、多様な視覚タスクにおいて顕著なパフォーマンスを示している。
本稿では,姿勢埋め込みをトレーニング開始時から対応するパターンを持つようにガイドするガウス的注意バイアスを明示的に追加することを提案する。
その結果,提案手法は画像の理解を容易にするだけでなく,様々なデータセット上での性能向上にも寄与することがわかった。
論文 参考訳(メタデータ) (2023-05-08T14:12:25Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Vision Transformer for Small-Size Datasets [23.855575212090365]
本稿では,SPT(Shifted Patch Tokenization)とLSA(Locality Self-Attention)を提案する。
SPTとLSAは、局所性帰納バイアスの欠如を効果的に解決し、小さなデータセットでもスクラッチから学習することができる。
実験の結果、SPTとLSAの両方をViTに適用すると、Tiny-ImageNetでは平均2.96%の性能向上が見られた。
論文 参考訳(メタデータ) (2021-12-27T03:24:03Z) - Early Convolutions Help Transformers See Better [63.21712652156238]
視覚変換器(ViT)モデルは準標準最適化性を示す。
現代の畳み込みニューラルネットワークは、最適化がはるかに容易である。
畳み込みステムをViTで使用すると、最適化の安定性が劇的に向上し、ピーク性能も向上する。
論文 参考訳(メタデータ) (2021-06-28T17:59:33Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。