論文の概要: Vision Transformers Don't Need Trained Registers
- arxiv url: http://arxiv.org/abs/2506.08010v2
- Date: Tue, 10 Jun 2025 22:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.731002
- Title: Vision Transformers Don't Need Trained Registers
- Title(参考訳): ヴィジュアル・トランスフォーマーは、トレーニング済みの登録を必要としない
- Authors: Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman,
- Abstract要約: 疎いニューロンの集合は、外れ値のトークンに高ノルムの活性化を集中させる役割を担っている。
これらのアーティファクトを緩和するために、トレーニング不要のアプローチを作成します。
その結果,テスト時のレジスタは,テスト時のレジスタトークンの役割を効果的に担っていることが示唆された。
- 参考スコア(独自算出の注目度): 17.412430704896455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the mechanism underlying a previously identified phenomenon in Vision Transformers -- the emergence of high-norm tokens that lead to noisy attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a sparse set of neurons is responsible for concentrating high-norm activations on outlier tokens, leading to irregular attention patterns and degrading downstream visual processing. While the existing solution for removing these outliers involves retraining models from scratch with additional learned register tokens, we use our findings to create a training-free approach to mitigate these artifacts. By shifting the high-norm activations from our discovered register neurons into an additional untrained token, we can mimic the effect of register tokens on a model already trained without registers. We demonstrate that our method produces cleaner attention and feature maps, enhances performance over base models across multiple downstream visual tasks, and achieves results comparable to models explicitly trained with register tokens. We then extend test-time registers to off-the-shelf vision-language models to improve their interpretability. Our results suggest that test-time registers effectively take on the role of register tokens at test-time, offering a training-free solution for any pre-trained model released without them.
- Abstract(参考訳): 我々は、視覚変換器で以前に特定された現象のメカニズム、すなわちノイズの多い注意マップにつながるハイノームトークンの出現について検討する。
我々は、複数のモデル(例えば、CLIP、DINOv2)において、疎いニューロンの集合が、不規則な注意パターンや下流の視覚処理の低下の原因となる、不規則なトークンに高ノルムの活性化を集中させることを観察する。
これらのアウトリーチを取り除くための既存のソリューションは、学習したレジスタトークンを追加して、スクラッチからモデルを再トレーニングするものですが、私たちの発見を使って、これらのアーティファクトを緩和するためのトレーニング不要なアプローチを作成します。
検出したレジスタニューロンから未訓練のトークンに高ノルム活性化をシフトさせることで、レジスタなしで既に訓練済みのモデルに対するレジスタトークンの効果を模倣することができる。
提案手法は,よりクリーンな注目度と特徴マップを生成し,複数の下流視覚課題にまたがるベースモデルよりも性能を向上し,レジスタトークンで明示的に訓練されたモデルに匹敵する結果が得られることを示す。
次に、テストタイムレジスタを市販のビジョン言語モデルに拡張し、解釈性を向上させる。
その結果,テストタイムレジスタは,テストタイムにおけるレジスタトークンの役割を効果的に担っていることが示唆された。
関連論文リスト
- Vision Transformers with Self-Distilled Registers [11.649023403110528]
ポストホックレジスタ (PH-Reg) は、レジスタを既存のViTに統合する効率的な自己蒸留方式であり、ラベル付きデータの追加やフルリトレーニングを必要としない。
提案手法は,ゼロショットおよび線形探索による学生のViTのセグメンテーションと深度予測を改善することにより,アーティファクトトークンの数を効果的に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-27T17:59:41Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Attention Sinks and Outlier Features: A 'Catch, Tag, and Release' Mechanism for Embeddings [4.30907936718325]
大きな言語モデル(LLM)の2つの顕著な特徴は、大きなノーム(外部)機能の存在と、いくつかのトークンに非常に強く参加する傾向である。
注意シンクは、例えば、トークンのシーケンスをキャッチし、共通の摂動を適用してキャプチャされたトークンをタグ付けし、トークンを残留ストリームに解放する。
論文 参考訳(メタデータ) (2025-02-02T21:15:07Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) は、視覚変換器(ViT)の事前訓練のための有望なアプローチとして登場した。
動的トークンモルフィング(DTM)は,コンテキストを保存しながら動的にトークンを集約し,コンテキスト化されたターゲットを生成する手法である。
DTMはさまざまなSSLフレームワークと互換性があります。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。