論文の概要: Leveraging Registers in Vision Transformers for Robust Adaptation
- arxiv url: http://arxiv.org/abs/2501.04784v1
- Date: Wed, 08 Jan 2025 19:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:06.145504
- Title: Leveraging Registers in Vision Transformers for Robust Adaptation
- Title(参考訳): ロバスト適応のための視覚変換器におけるレジスタの活用
- Authors: Srikar Yellapragada, Kowshik Thopalli, Vivek Narayanaswamy, Wesam Sakla, Yang Liu, Yamen Mubarka, Dimitris Samaras, Jayaraman J. Thiagarajan,
- Abstract要約: ビジョントランスフォーマー(ViT)は、グローバルな画像表現をキャプチャできるため、様々なタスクで成功している。
近年の研究では、ViTに高ノルムのトークンが存在することが確認されており、教師なしの物体発見に干渉する可能性がある。
これを解決するために、グローバルな画像レベルの情報をキャプチャしながら、高い標準パッチトークンを分離する追加トークンである"登録"が提案されている。
- 参考スコア(独自算出の注目度): 36.30125926550378
- License:
- Abstract: Vision Transformers (ViTs) have shown success across a variety of tasks due to their ability to capture global image representations. Recent studies have identified the existence of high-norm tokens in ViTs, which can interfere with unsupervised object discovery. To address this, the use of "registers" which are additional tokens that isolate high norm patch tokens while capturing global image-level information has been proposed. While registers have been studied extensively for object discovery, their generalization properties particularly in out-of-distribution (OOD) scenarios, remains underexplored. In this paper, we examine the utility of register token embeddings in providing additional features for improving generalization and anomaly rejection. To that end, we propose a simple method that combines the special CLS token embedding commonly employed in ViTs with the average-pooled register embeddings to create feature representations which are subsequently used for training a downstream classifier. We find that this enhances OOD generalization and anomaly rejection, while maintaining in-distribution (ID) performance. Extensive experiments across multiple ViT backbones trained with and without registers reveal consistent improvements of 2-4\% in top-1 OOD accuracy and a 2-3\% reduction in false positive rates for anomaly detection. Importantly, these gains are achieved without additional computational overhead.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、グローバルな画像表現をキャプチャできるため、様々なタスクで成功している。
近年の研究では、ViTに高ノルムのトークンが存在することが確認されており、教師なしの物体発見に干渉する可能性がある。
これを解決するために、グローバルな画像レベルの情報をキャプチャしながら、高い標準パッチトークンを分離する追加トークンである"登録"が提案されている。
レジスタは対象発見のために広く研究されているが、その一般化特性は特にアウト・オブ・ディストリビューション(OOD)のシナリオでは未解明のままである。
本稿では,レジスタトークンの埋め込みの有用性について検討し,一般化と異常拒絶を改善するための追加機能を提供する。
そこで本研究では,ViTに共通する特別なCRSトークン埋め込みと平均プールレジスタ埋め込みを組み合わせることで,下流分類器の訓練に使用される特徴表現を生成する方法を提案する。
その結果,OODの一般化と異常拒絶が促進され,ID(In-distribution)性能が維持されることがわかった。
レジスターと非レジスターで訓練された複数のViTバックボーンにわたる広範囲な実験では、トップ-1 OODの精度が2~4倍改善し、異常検出のための偽陽性率が2~3倍低下した。
重要なことに、これらのゲインは計算オーバーヘッドを増すことなく達成される。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - RegFormer: An Efficient Projection-Aware Transformer Network for
Large-Scale Point Cloud Registration [73.69415797389195]
本稿では,大規模クラウドアライメントのためのエンドツーエンドトランス (RegFormer) ネットワークを提案する。
具体的には、プロジェクション対応階層変換器を提案し、長距離依存を捕捉し、外乱をフィルタする。
我々の変圧器は線形複雑であり、大規模シーンでも高い効率が保証される。
論文 参考訳(メタデータ) (2023-03-22T08:47:37Z) - A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文 参考訳(メタデータ) (2023-02-12T22:12:35Z) - No Shifted Augmentations (NSA): compact distributions for robust
self-supervised Anomaly Detection [4.243926243206826]
教師なし異常検出(AD)は正規化の概念を構築し、分布内(ID)と分布外(OOD)データを区別する必要がある。
我々は,ID特徴分布のエンフ幾何学的コンパクト性によって,外乱の分離や検出が容易になるかを検討する。
我々は,IDデータのコンパクトな分布を学習可能にする自己教師型特徴学習ステップに,新たなアーキテクチャ変更を提案する。
論文 参考訳(メタデータ) (2022-03-19T15:55:32Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。