論文の概要: $A^2$: Smaller Self-Supervised ViTs Localize Better than Larger Ones
- arxiv url: http://arxiv.org/abs/2606.03148v1
- Date: Tue, 02 Jun 2026 04:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.766132
- Title: $A^2$: Smaller Self-Supervised ViTs Localize Better than Larger Ones
- Title(参考訳): A^2$: より小さいセルフスーパービジョンのViTは、より大きいものよりもローカライズ
- Authors: Sreehari Rammohan, Huy Ha, Carl Vondrick,
- Abstract要約: より小さい自己監督型VTのアテンションマップは、より大きいVTよりも前景のオブジェクトのローカライズが優れていることがわかった。
両世界を最大限に活用するために,この逆スケーリング探索を利用するシンプルな手法である$A2$を提案する。
A2$は完全に事前訓練された機能を使用し、グループラベルを必要とせず、データセットごとの注意やバックボーンのトレーニングを必要としない。
- 参考スコア(独自算出の注目度): 38.928586588115046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust visual classification often depends on localizing the main foreground objects in an image while ignoring contextual distractors. Surprisingly, we find that the attention maps of smaller self-supervised ViTs localize foreground objects better than those of larger ViTs. However, we still need large ViTs, because they extract richer representations from each patch. To get the best of both worlds, good localization and rich representations, we propose $A^2$, a simple method that leverages this inverse scaling finding by decoupling where to look (a small attention model) from what to extract (a large embedding model): we crop around the attention peaks of a small model and embed the crops with a larger model. $A^2$ uses entirely pretrained features, requires no group labels, and does not require per-dataset attention or backbone training. Across 5 benchmarks, $A^2$ is competitive with backbone-matched loss-level methods like DFR, and outperforms end-to-end attention training under stronger distribution shifts.
- Abstract(参考訳): ロバストな視覚分類は、しばしば、文脈的注意を無視しながら、画像の主前景オブジェクトをローカライズすることに依存する。
驚いたことに、より小さな自己監督型ViTのアテンションマップは、より大きなViTよりも前景のオブジェクトをよりよくローカライズする。
しかし、パッチごとにリッチな表現を抽出するため、大きなViTが必要である。
両世界の長所, 局在性, リッチな表現の両面を最大限に活用するために, この逆スケーリング探索を利用した単純な手法である$A^2$を提案する。
A^2$は完全に事前訓練された機能を使用し、グループラベルを必要とせず、データセットごとの注意やバックボーンのトレーニングを必要としない。
5つのベンチマークで、$A^2$はDFRのようなバックボーンマッチングされた損失レベルメソッドと競合し、より強力な分散シフトの下でのエンドツーエンドの注意トレーニングよりも優れています。
関連論文リスト
- The Linear Attention Resurrection in Vision Transformer [0.6798775532273751]
ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンを嵐によって捉えた。
ViTsの基盤となるソフトマックスの注目は、時間とメモリの2次的な複雑さを伴い、高解像度画像へのViTsの適用を妨げる。
本稿では,この制限に対処する線形アテンション手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T16:29:17Z) - Data-independent Module-aware Pruning for Hierarchical Vision Transformers [41.92794134275854]
階層型視覚変換器(ViT)は従来のViTよりも2つの利点がある。
まず、階層型ViTは局所的な自己注意による画像サイズに関する線形計算複雑性を実現する。
第二に、階層的なViTは階層的な特徴マップを作成し、画像パッチをより深い層にマージして、密度の高い予測を行う。
論文 参考訳(メタデータ) (2024-04-21T12:50:38Z) - When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。
1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文 参考訳(メタデータ) (2024-03-19T17:58:39Z) - D3Former: Debiased Dual Distilled Transformer for Incremental Learning [25.65032941918354]
クラスインクリメンタルラーニング(CIL)設定では、各学習フェーズのモデルにクラスのグループを導入します。
目標は、今まで観察されたすべてのクラスで統一されたモデルパフォーマンスを学習することである。
我々は、$textrmD3textrmFormer$というCIL用のデバイアスドデュアル蒸留トランスを開発した。
論文 参考訳(メタデータ) (2022-07-25T08:54:52Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z) - Structure-Consistent Weakly Supervised Salient Object Detection with
Local Saliency Coherence [14.79639149658596]
本論文では,スクリブルアノテーションによる弱監督オブジェクト検出のための1ラウンドのエンドツーエンドトレーニング手法を提案する。
6つのベンチマークで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-08T12:49:40Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。