論文の概要: Register and CLS tokens yield a decoupling of local and global features in large ViTs
- arxiv url: http://arxiv.org/abs/2505.05892v1
- Date: Fri, 09 May 2025 09:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.214113
- Title: Register and CLS tokens yield a decoupling of local and global features in large ViTs
- Title(参考訳): 登録トークンとCLSトークンは、大規模なViTにおける局所的特徴と大域的特徴の分離をもたらす
- Authors: Alexander Lappe, Martin A. Giese,
- Abstract要約: 本研究では,レジスタトークンがグローバル画像特徴とローカル画像特徴の関係に与える影響について検討する。
CLSトークン自体がレジスタと解釈できるので、明示的なレジスタトークンを持たないモデルでは、非常に類似した現象が生じる。
- 参考スコア(独自算出の注目度): 49.40323406667405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that the attention maps of the widely popular DINOv2 model exhibit artifacts, which hurt both model interpretability and performance on dense image tasks. These artifacts emerge due to the model repurposing patch tokens with redundant local information for the storage of global image information. To address this problem, additional register tokens have been incorporated in which the model can store such information instead. We carefully examine the influence of these register tokens on the relationship between global and local image features, showing that while register tokens yield cleaner attention maps, these maps do not accurately reflect the integration of local image information in large models. Instead, global information is dominated by information extracted from register tokens, leading to a disconnect between local and global features. Inspired by these findings, we show that the CLS token itself, which can be interpreted as a register, leads to a very similar phenomenon in models without explicit register tokens. Our work shows that care must be taken when interpreting attention maps of large ViTs. Further, by clearly attributing the faulty behaviour to register and CLS tokens, we show a path towards more interpretable vision models.
- Abstract(参考訳): 近年の研究では、広く普及しているDINOv2モデルのアテンションマップがアーティファクトを示しており、高密度画像タスクにおけるモデルの解釈可能性と性能の両方を損なうことが示されている。
これらのアーティファクトは、グローバルな画像情報を保存するために冗長なローカル情報を持つパッチトークンを再利用するモデルによって出現する。
この問題に対処するため、モデルに代えてそのような情報を格納できるレジスタトークンが追加されている。
これらのレジスタトークンがグローバルな画像特徴とローカルな画像特徴の関係に与える影響を慎重に検討し、レジスタトークンがよりクリーンな注意マップを生成する一方で、これらのマップは大規模モデルにおけるローカルな画像情報の統合を正確に反映していないことを示す。
代わりに、グローバル情報はレジスタトークンから抽出された情報によって支配され、ローカル機能とグローバル機能の間を切断する。
これらの結果から, CLSトークン自体がレジスタとして解釈可能であることを示し, 明示的なレジスタトークンを持たないモデルにおいて, 非常に類似した現象が生じることを示した。
我々の研究は、大きなViTの注意マップを解釈する際に注意が必要であることを示している。
さらに,レジスタとCLSトークンの不正な動作を明確化することにより,より解釈可能な視覚モデルへの道筋を示す。
関連論文リスト
- PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Quantised Global Autoencoder: A Holistic Approach to Representing Visual Data [7.152103069753289]
量子化されたオートエンコーダでは、画像は通常、局所的なパッチに分割され、それぞれが1つのトークンでエンコードされる。
本手法は,入力信号を大域周波数の重畳に変換するスペクトル分解に着想を得たものである。
論文 参考訳(メタデータ) (2024-07-16T17:05:20Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly
Supervised Semantic Segmentation [67.26984058377435]
高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークであるL2Gについて述べる。
本フレームワークは,グローバルな視点から収集したリッチオブジェクトの詳細知識をグローバルネットワークで学習する。
実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットにおいて,72.1%,44.2%のmIoU値が得られた。
論文 参考訳(メタデータ) (2022-04-07T04:31:32Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z) - On the Importance of Local Information in Transformer Based Models [19.036044858449593]
自己保持モジュールはTransformerベースのモデルのキーコンポーネントである。
最近の研究では、これらの頭は統語的、意味的、または局所的な行動を示すことが示されている。
その結果, 頭部の局所性バイアスは, 統語的バイアスに比べて大きいことが判明した。
論文 参考訳(メタデータ) (2020-08-13T11:32:47Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。