論文の概要: Do All Vision Transformers Need Registers? A Cross-Architectural Reassessment
- arxiv url: http://arxiv.org/abs/2603.25803v1
- Date: Thu, 26 Mar 2026 18:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.226913
- Title: Do All Vision Transformers Need Registers? A Cross-Architectural Reassessment
- Title(参考訳): すべての視覚変換器はレジスタを必要とするか? アーキテクチャ横断的な再評価
- Authors: Spiros Baxevanakis, Platon Karageorgis, Ioannis Dravilas, Konrad Szewczyk,
- Abstract要約: 我々は、Darcet et al. (2024) を再現し、複数のモデルにわたってそれらの主張の一般化性を評価する。
モデルのサイズが与える影響について検討し、その結果をより小さなモデルに拡張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Vision Transformers (ViTs) presents significant challenges, one of which is the emergence of artifacts in attention maps, hindering their interpretability. Darcet et al. (2024) investigated this phenomenon and attributed it to the need of ViTs to store global information beyond the [CLS] token. They proposed a novel solution involving the addition of empty input tokens, named registers, which successfully eliminate artifacts and improve the clarity of attention maps. In this work, we reproduce the findings of Darcet et al. (2024) and evaluate the generalizability of their claims across multiple models, including DINO, DINOv2, OpenCLIP, and DeiT3. While we confirm the validity of several of their key claims, our results reveal that some claims do not extend universally to other models. Additionally, we explore the impact of model size, extending their findings to smaller models. Finally, we untie terminology inconsistencies found in the original paper and explain their impact when generalizing to a wider range of models.
- Abstract(参考訳): トレーニングビジョントランスフォーマー(ViTs)は重要な課題を示しており、そのうちの1つは注意マップにアーチファクトが出現し、その解釈可能性を妨げることである。
Darcet et al (2024)は、この現象を調査し、[CLS]トークン以外のグローバル情報を格納するViTの必要性を理由としている。
彼らは、空の入力トークン、名前付きレジスタの追加を含む新しいソリューションを提案し、アーティファクトをなくし、アテンションマップの明確さを向上した。
本稿では,DINO, DINOv2, OpenCLIP, DeiT3を含む複数のモデルにおいて, Darcet et al (2024) の発見を再現し,それらの主張の一般化性を評価する。
いくつかの重要な主張の有効性は確認するが、我々の結果は、いくつかの主張が他のモデルに普遍的に拡張されないことを示している。
さらに、モデルサイズの影響について検討し、その結果をより小さなモデルに拡張する。
最後に,本論文に見られる用語の不整合を解消し,より広い範囲のモデルに一般化する際の影響を説明する。
関連論文リスト
- Vision Transformers Need More Than Registers [70.42157905484765]
Vision Transformer (ViT) は様々な下流タスクに対して汎用的な表現を提供する。
ViTのアーティファクトは、さまざまな監視パラダイムや下流タスクで広く観察されている。
これらのアーティファクトは遅延凝集挙動に由来すると結論付けている。
論文 参考訳(メタデータ) (2026-02-25T20:42:35Z) - Register and [CLS] tokens yield a decoupling of local and global features in large ViTs [46.836122954309566]
本研究では,レジスタトークンがグローバル画像特徴とローカル画像特徴の関係に与える影響について検討する。
我々の研究は、大きなViTの注意マップを解釈する際に注意が必要であることを示している。
論文 参考訳(メタデータ) (2025-05-09T09:00:17Z) - Chain-of-Sketch: Enabling Global Visual Reasoning [37.09634351533441]
グラフ、文字列、迷路、画像グリッドを含む、拡張されたグローバルなビジュアルデータセットを紹介します。
大規模なビジョンモデルは、これらのタスクを効率的に学習するのに依然として苦労している。
本稿では,この学習効率の低下を緩和するために,チェーン・オブ・スケッチ(CoS)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T17:44:13Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Evaluating the Efficacy of Prompt-Engineered Large Multimodal Models Versus Fine-Tuned Vision Transformers in Image-Based Security Applications [2.8161155726745237]
大規模マルチモーダルモデル(LMM)は、テキストや画像などの複数のモダリティを統合することで、複雑なデータを解釈し分析するように設計されている。
本稿では,視覚変換器(ViT)モデルと比較して,画像とテキストの両方を処理するプロンプトエンジニアリングLMMの適用性と有効性について検討する。
視覚的に明らかでないタスクでは、ViTモデルは25のマルウェアクラスの予測では97.11%、5つのマルウェアファミリーの予測では97.61%のF1スコアを達成した。
論文 参考訳(メタデータ) (2024-03-26T15:20:49Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Structured World Representations in Maze-Solving Transformers [3.75591091941815]
この研究は、小さなトランスモデルによって形成された抽象化に焦点を当てている。
迷路位相と有効経路の構造的内部表現が一貫した出現を示す証拠を見出した。
また,注目ヘッドの同定により経路追従回路の解読を行う。
論文 参考訳(メタデータ) (2023-12-05T08:24:26Z) - Debunking Free Fusion Myth: Online Multi-view Anomaly Detection with
Disentangled Product-of-Experts Modeling [25.02446577349165]
マルチビューやマルチモーダルデータさえも、現実世界のアプリケーションには魅力的なものです。
本稿では,(1)多視点データに対処するProduct-of-Experts層,(2)ビュー共通表現とビュー固有表現を混在させるTotal Correction Discriminator,(3)すべてのコンポーネントをラップするジョイントロス関数を含む,新しい多視点変分自動符号化モデルdPoEを提案する。
論文 参考訳(メタデータ) (2023-10-28T15:14:43Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。