論文の概要: PaW-ViT: A Patch-based Warping Vision Transformer for Robust Ear Verification
- arxiv url: http://arxiv.org/abs/2601.19771v1
- Date: Tue, 27 Jan 2026 16:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.396131
- Title: PaW-ViT: A Patch-based Warping Vision Transformer for Robust Ear Verification
- Title(参考訳): PaW-ViT:ロバスト耳認証のためのパッチ型ワープビジョン変換器
- Authors: Deeksha Arun, Kevin W. Bowyer, Patrick Flynn,
- Abstract要約: 本稿では,耳画像の正規化によるViTの有効性向上を目的とした,解剖学的知識に根ざした前処理アプローチPaW-ViTを紹介する。
検出された耳の特徴境界にトークン境界を正確に合わせることで、PaW-ViTは、形状、大きさ、ポーズの変化に対してより堅牢性を得る。
- 参考スコア(独自算出の注目度): 8.367325709365051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rectangular tokens common to vision transformer methods for visual recognition can strongly affect performance of these methods due to incorporation of information outside the objects to be recognized. This paper introduces PaW-ViT, Patch-based Warping Vision Transformer, a preprocessing approach rooted in anatomical knowledge that normalizes ear images to enhance the efficacy of ViT. By accurately aligning token boundaries to detected ear feature boundaries, PaW-ViT obtains greater robustness to shape, size, and pose variation. By aligning feature boundaries to natural ear curvature, it produces more consistent token representations for various morphologies. Experiments confirm the effectiveness of PaW-ViT on various ViT models (ViT-T, ViT-S, ViT-B, ViT-L) and yield reasonable alignment robustness to variation in shape, size, and pose. Our work aims to solve the disconnect between ear biometric morphological variation and transformer architecture positional sensitivity, presenting a possible avenue for authentication schemes.
- Abstract(参考訳): 視覚認識のための視覚変換器法に共通する長方形のトークンは、認識対象外の情報の導入により、これらの手法の性能に強く影響を与える可能性がある。
本稿では、耳画像の正規化によるViTの有効性向上を目的とした、解剖学的知識に基づく前処理アプローチであるPaW-ViT(パッチベースウォーピングビジョントランスフォーマ)を紹介する。
検出された耳の特徴境界にトークン境界を正確に合わせることで、PaW-ViTは、形状、大きさ、ポーズの変化に対してより堅牢性を得る。
特徴境界を自然な耳曲率に合わせることで、様々な形態に対してより一貫したトークン表現を生成する。
各種ViTモデル(ViT-T, ViT-S, ViT-B, ViT-L)におけるPaW-ViTの有効性を確認し, 形状, サイズ, ポーズの変動に対して合理的なアライメントロバスト性が得られることを示した。
本研究の目的は,耳の生体形態変化とトランスフォーマーアーキテクチャの位置感度の切り離しを解消し,認証方式の道筋を示すことである。
関連論文リスト
- Equi-ViT: Rotational Equivariant Vision Transformer for Robust Histopathology Analysis [4.388994056961038]
等価な畳み込みカーネルをViTアーキテクチャのパッチ埋め込みステージに統合するEqui-ViTを提案する。
Equi-ViTは、画像の向きによって、良好な回転整合パッチ埋め込みと安定した分類性能を実現する。
論文 参考訳(メタデータ) (2026-01-14T04:03:20Z) - Improved Ear Verification with Vision Transformers and Overlapping Patches [6.143343929388887]
視覚変換器(ViT)は画像認識タスクで広く用いられているが、その認識効率は、重複するパッチに対する注意の欠如によって妨げられている。
本研究では,ViT-Tiny (ViT-T), ViT-Small (ViT-S), ViT-Base (ViT-B), ViT-Large (ViT-L) の構成を多様なデータセットで評価する。
その結果,48実験中44実験において,重なり合うパッチの重要性が示唆された。
論文 参考訳(メタデータ) (2025-03-30T01:50:21Z) - ChangeViT: Unleashing Plain Vision Transformers for Change Detection [3.582733645632794]
ChangeViTは、大規模な変更のパフォーマンスを高めるために、プレーンなViTバックボーンを採用するフレームワークである。
このフレームワークは3つの一般的な高解像度データセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-18T17:59:08Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Adaptive Transformers for Robust Few-shot Cross-domain Face
Anti-spoofing [71.06718651013965]
我々は、堅牢なクロスドメイン顔アンチスプーフィングのための適応型視覚変換器(ViT)を提案する。
私たちはVTをバックボーンとして採用し、その強度を利用して画素間の長距離依存を考慮します。
いくつかのベンチマークデータセットの実験では、提案されたモデルが堅牢かつ競合的なパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2022-03-23T03:37:44Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - O-ViT: Orthogonal Vision Transformer [7.936742888035828]
Vision Transformer(ViT)は、画像パッチシーケンスに自己アテンションを創造的に適用し、素晴らしいパフォーマンスを実現します。
幾何学的視点からViTを最適化するために,Orthogonal Vision Transformer (O-ViT) という新しい手法を提案する。
我々は,O-ViTの有効性を示すために画像認識タスクの比較実験を行い,O-ViTが最大3.6%向上することを示す実験を行った。
論文 参考訳(メタデータ) (2022-01-28T14:18:52Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。