論文の概要: Vanilla Group Equivariant Vision Transformer: Simple and Effective
- arxiv url: http://arxiv.org/abs/2602.08047v1
- Date: Sun, 08 Feb 2026 16:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.950961
- Title: Vanilla Group Equivariant Vision Transformer: Simple and Effective
- Title(参考訳): Vanilla Group Equivariant Vision Transformer: シンプルで効果的
- Authors: Jiahong Fu, Qi Xie, Deyu Meng, Zongben Xu,
- Abstract要約: 本稿では、パッチ埋め込み、自己アテンション、位置エンコーディング、ダウン/アップ・サンプリング等を含む重要なViTコンポーネントをレンダリングするフレームワークを提案する。
当社の同種ViTは、幅広いビジョンタスクにおけるパフォーマンスとデータ効率を一貫して改善しています。
- 参考スコア(独自算出の注目度): 74.55314825243444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating symmetry priors as inductive biases to design equivariant Vision Transformers (ViTs) has emerged as a promising avenue for enhancing their performance. However, existing equivariant ViTs often struggle to balance performance with equivariance, primarily due to the challenge of achieving holistic equivariant modifications across the diverse modules in ViTs-particularly in harmonizing the Self-Attention mechanism with Patch Embedding. To address this, we propose a straightforward framework that systematically renders key ViT components, including patch embedding, self-attention, positional encodings, and Down/Up-Sampling, equivariant, thereby constructing ViTs with guaranteed equivariance. The resulting architecture serves as a plug-and-play replacement that is both theoretically grounded and practically versatile, scaling seamlessly even to Swin Transformers. Extensive experiments demonstrate that our equivariant ViTs consistently improve performance and data efficiency across a wide spectrum of vision tasks.
- Abstract(参考訳): 等価な視覚変換器(ViT)の設計に誘導バイアスとして対称性の先行を組み込むことは、その性能を高めるための有望な道として現れてきた。
しかし、既存の同変 ViT はしばしば性能と同変のバランスをとるのに苦労するが、これは主に、ViTs の多様加群全体の全体的同変修正(特に Patch Embedding による自己保持機構の調和)を達成することの難しさからである。
そこで本稿では,パッチ埋め込み,自己アテンション,位置エンコーディング,ダウン/アップ・サンプリングなど,重要なViTコンポーネントを体系的にレンダリングするフレームワークを提案する。
結果として生じるアーキテクチャはプラグアンドプレイの代替として機能し、理論上は基礎があり、実際は多目的であり、Swin Transformersにもシームレスにスケールできる。
広汎な実験により、我々の同変 ViT は、幅広い視覚タスクにおける性能とデータ効率を一貫して改善することを示した。
関連論文リスト
- Equi-ViT: Rotational Equivariant Vision Transformer for Robust Histopathology Analysis [4.388994056961038]
等価な畳み込みカーネルをViTアーキテクチャのパッチ埋め込みステージに統合するEqui-ViTを提案する。
Equi-ViTは、画像の向きによって、良好な回転整合パッチ埋め込みと安定した分類性能を実現する。
論文 参考訳(メタデータ) (2026-01-14T04:03:20Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - $E(2)$-Equivariant Vision Transformer [11.94180035256023]
Vision Transformer (ViT) はコンピュータビジョンにおいて優れた性能を発揮している。
ViTにおける位置符号化は、データの本質的な等価性を学ぶのを著しく困難にする。
我々は、新しい効果的な位置符号化演算子を用いて、GE-ViT(Group Equivariant Vision Transformer)を設計する。
論文 参考訳(メタデータ) (2023-06-11T16:48:03Z) - Making Vision Transformers Truly Shift-Equivariant [20.61570323513044]
ビジョントランスフォーマー (ViT) は、コンピュータビジョンのためのディープネットアーキテクチャの1つとなっている。
トークン化,自己アテンション,パッチマージ,位置エンコーディングなど,各モジュールに対する新しいデータ適応設計を導入する。
画像分類とセマンティックセグメンテーションタスクにおける適応モデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-25T17:59:40Z) - Adaptive Transformers for Robust Few-shot Cross-domain Face
Anti-spoofing [71.06718651013965]
我々は、堅牢なクロスドメイン顔アンチスプーフィングのための適応型視覚変換器(ViT)を提案する。
私たちはVTをバックボーンとして採用し、その強度を利用して画素間の長距離依存を考慮します。
いくつかのベンチマークデータセットの実験では、提案されたモデルが堅牢かつ競合的なパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2022-03-23T03:37:44Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。