論文の概要: Revisiting [CLS] and Patch Token Interaction in Vision Transformers
- arxiv url: http://arxiv.org/abs/2602.08626v1
- Date: Mon, 09 Feb 2026 13:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.244613
- Title: Revisiting [CLS] and Patch Token Interaction in Vision Transformers
- Title(参考訳): 視覚変換器における再検討[CLS]とパッチトークン相互作用
- Authors: Alexis Marouani, Oriane Siméoni, Hervé Jégou, Piotr Bojanowski, Huy V. Vo,
- Abstract要約: 視覚変換器は、強力でスケーラブルで汎用的な表現学習器として登場した。
我々は,異なる事前学習戦略の下で,グローバルな特徴学習とローカルな特徴学習の摩擦について検討する。
本稿では,クラスとパッチトークンの計算フローを選択的に切り離す特殊な処理経路を提案する。
- 参考スコア(独自算出の注目度): 16.71411137558127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers have emerged as powerful, scalable and versatile representation learners. To capture both global and local features, a learnable [CLS] class token is typically prepended to the input sequence of patch tokens. Despite their distinct nature, both token types are processed identically throughout the model. In this work, we investigate the friction between global and local feature learning under different pre-training strategies by analyzing the interactions between class and patch tokens. Our analysis reveals that standard normalization layers introduce an implicit differentiation between these token types. Building on this insight, we propose specialized processing paths that selectively disentangle the computational flow of class and patch tokens, particularly within normalization layers and early query-key-value projections. This targeted specialization leads to significantly improved patch representation quality for dense prediction tasks. Our experiments demonstrate segmentation performance gains of over 2 mIoU points on standard benchmarks, while maintaining strong classification accuracy. The proposed modifications introduce only an 8% increase in parameters, with no additional computational overhead. Through comprehensive ablations, we provide insights into which architectural components benefit most from specialization and how our approach generalizes across model scales and learning frameworks.
- Abstract(参考訳): 視覚変換器は、強力でスケーラブルで汎用的な表現学習器として登場した。
グローバル機能とローカル機能の両方をキャプチャするために、学習可能な[CLS]クラストークンは、通常、パッチトークンの入力シーケンスにプリコンパイルされる。
異なる性質にもかかわらず、両方のトークンタイプはモデル全体で同一に処理される。
本研究では,クラストークンとパッチトークンの相互作用を解析することにより,異なる事前学習戦略の下でのグローバルな特徴学習と局所的な特徴学習の摩擦について検討する。
分析の結果,標準正規化層はこれらのトークンタイプの間に暗黙的な分化をもたらすことが明らかとなった。
この知見に基づいて、クラスとパッチトークンの計算フローを選択的に切り離す特殊な処理経路、特に正規化層と初期クエリキー値のプロジェクションにおいて提案する。
この目標とする特殊化により、密集予測タスクのパッチ表現品質が大幅に向上する。
本実験は,標準ベンチマークで2mIoU以上のセグメンテーション性能向上を示し,高い分類精度を維持した。
提案された修正では、パラメータの8%しか増加せず、計算オーバーヘッドは増加しない。
包括的な説明を通じて、私たちは、アーキテクチャコンポーネントが専門化から最も恩恵を受けるもの、そして我々のアプローチがモデルスケールや学習フレームワークをどのように一般化するかについての洞察を提供します。
関連論文リスト
- Inceptive Transformers: Enhancing Contextual Representations through Multi-Scale Feature Learning Across Domains and Languages [3.294155819837931]
Transformerモデルは、シーケンス内のすべてのトークンから1つの[/]トークンに情報を圧縮して、グローバルなコンテキストを表現する。
このアプローチは、きめ細かい機能や階層的な特徴を希薄化し、局所的なパターンが重要である下流のタスクで情報を失うリスクがある。
本稿では,トランス層上に位置するインセプションスタイルの1-D畳み込みモジュールを提案し,マルチスケールな局所的特徴を持つトークン表現を拡大する。
論文 参考訳(メタデータ) (2025-05-26T19:59:22Z) - SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized Zero-Shot Learning [0.6792605600335813]
Zero-Shot Learning (ZSL)は、トレーニング中に見えないカテゴリを特定するという課題を示す。
ゼロショット学習のためのセマンティック強化表現(SEER-ZSL)を提案する。
まず,確率的エンコーダを用いて意味のある意味情報を抽出し,意味的一貫性とロバスト性を高めることを目的とする。
第2に、学習したデータ分布を逆向きに訓練した発電機で利用することにより、視覚空間を蒸留し、第3に、未確認なカテゴリを真のデータ多様体にマッピングできるようにする。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:30:20Z) - Learning from Mistakes: Self-Regularizing Hierarchical Representations
in Point Cloud Semantic Segmentation [15.353256018248103]
LiDARセマンティックセマンティックセマンティクスは、きめ細かいシーン理解を実現するために注目を集めている。
本稿では、標準モデルから派生した分類ミスタケス(LEAK)からLEArnを分離する粗大な設定を提案する。
我々のLEAKアプローチは非常に一般的で、どんなセグメンテーションアーキテクチャにもシームレスに適用できます。
論文 参考訳(メタデータ) (2023-01-26T14:52:30Z) - Learning Classifiers of Prototypes and Reciprocal Points for Universal
Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。
主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。
既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文 参考訳(メタデータ) (2022-12-16T09:01:57Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation [94.78965643354285]
弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
論文 参考訳(メタデータ) (2022-03-06T07:18:23Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。