論文の概要: Vision Transformers Need More Than Registers
- arxiv url: http://arxiv.org/abs/2602.22394v1
- Date: Wed, 25 Feb 2026 20:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.398755
- Title: Vision Transformers Need More Than Registers
- Title(参考訳): ヴィジュアル・トランスフォーマーはレジスター以上のものが必要
- Authors: Cheng Shi, Yizhou Yu, Sibei Yang,
- Abstract要約: Vision Transformer (ViT) は様々な下流タスクに対して汎用的な表現を提供する。
ViTのアーティファクトは、さまざまな監視パラダイムや下流タスクで広く観察されている。
これらのアーティファクトは遅延凝集挙動に由来すると結論付けている。
- 参考スコア(独自算出の注目度): 70.42157905484765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs), when pre-trained on large-scale data, provide general-purpose representations for diverse downstream tasks. However, artifacts in ViTs are widely observed across different supervision paradigms and downstream tasks. Through systematic analysis of artifacts in ViTs, we find that their fundamental mechanisms have yet to be sufficiently elucidated. In this paper, through systematic analysis, we conclude that these artifacts originate from a lazy aggregation behavior: ViT uses semantically irrelevant background patches as shortcuts to represent global semantics, driven by global attention and Coarse-grained semantic supervision. Our solution selectively integrates patch features into the CLS token, reducing the influence of background-dominated shortcuts and consistently improving performance across 12 benchmarks under label-, text-, and self-supervision. We hope this work offers a new perspective on ViT behavior.
- Abstract(参考訳): 視覚変換器(ViT)は、大規模データで事前訓練された場合、様々な下流タスクに対して汎用的な表現を提供する。
しかし、ViTのアーティファクトは様々な監督パラダイムや下流タスクで広く観察されている。
ViTのアーティファクトの体系的な解析を通して、それらの基本的なメカニズムはまだ十分に解明されていないことが判明した。
本稿では,これらのアーティファクトが遅延集約行動に起因していると結論づける。 ViTでは,グローバルなセマンティクスを表現するために,意味的に無関係な背景パッチをショートカットとして使用し,大域的な注意と粗大なセマンティクス管理を駆使した。
当社のソリューションは,CLSトークンにパッチ機能を選択的に統合し,バックグラウンド優先のショートカットの影響を低減し,ラベル,テキスト,セルフスーパービジョンの下での12ベンチマークにおけるパフォーマンスを継続的に改善する。
この研究がViTの行動に新たな視点を与えてくれることを願っています。
関連論文リスト
- Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis [38.074487843137064]
本稿では,教師付き事前学習型視覚変換器(ViTs)と従来のニューラルネットワーク(ConvNets)とを比較し,顔深度画像やビデオの検出に有効であることを示す。
これは、特に限られたトレーニングデータを用いて、一般化と説明可能性を改善する可能性について検討する。
SSL ViTsを利用して、平易なデータによるディープフェイク検出と部分的な微調整を行い、注意機構を介してディープフェイク検出と説明可能性に匹敵する適応性を見出す。
論文 参考訳(メタデータ) (2024-05-01T07:16:49Z) - Interpretability-Aware Vision Transformer [12.406960223371959]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文 参考訳(メタデータ) (2023-09-14T21:50:49Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。