論文の概要: Octic Vision Transformers: Quicker ViTs Through Equivariance
- arxiv url: http://arxiv.org/abs/2505.15441v4
- Date: Tue, 30 Sep 2025 15:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.746614
- Title: Octic Vision Transformers: Quicker ViTs Through Equivariance
- Title(参考訳): Octic Vision Transformers: 等価性によるQuicker ViTs
- Authors: David Nordström, Johan Edstedt, Fredrik Kahl, Georg Bökman,
- Abstract要約: 我々は幾何学的対称性を捉えるためにOctic Vision Transformer (octic ViTs)を導入する。
われわれの八面体線形層はFLOPの5.33倍、メモリの8倍の低減を実現している。
我々は ImageNet-1K 上で octic ViT (DeiT-III) と unsupervised (DINOv2) を訓練する。
- 参考スコア(独自算出の注目度): 29.044546222577804
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Why are state-of-the-art Vision Transformers (ViTs) not designed to exploit natural geometric symmetries such as 90-degree rotations and reflections? In this paper, we argue that there is no fundamental reason, and what has been missing is an efficient implementation. To this end, we introduce Octic Vision Transformers (octic ViTs) which rely on octic group equivariance to capture these symmetries. In contrast to prior equivariant models that increase computational cost, our octic linear layers achieve 5.33x reductions in FLOPs and up to 8x reductions in memory compared to ordinary linear layers. In full octic ViT blocks the computational reductions approach the reductions in the linear layers with increased embedding dimension. We study two new families of ViTs, built from octic blocks, that are either fully octic equivariant or break equivariance in the last part of the network. Training octic ViTs supervised (DeiT-III) and unsupervised (DINOv2) on ImageNet-1K, we find that they match baseline accuracy while at the same time providing substantial efficiency gains.
- Abstract(参考訳): なぜ、90度の回転や反射といった自然な幾何学的対称性を活用するために、最先端のビジョントランスフォーマー(ViT)が設計されていないのか?
本稿では, 根本的な理由はなく, 効率的な実装が欠けていることを論じる。
この目的のために、これらの対称性を捉えるためにオクティック群同値に依存するオクティックビジョン変換器(オクティックビジョン変換器)を導入する。
計算コストを増大させる以前の同変モデルとは対照的に,我々の八面体線形層はFLOPの5.33倍,メモリの8倍の削減を実現している。
完全オクティック ViT では、計算量削減は埋め込み次元が増大する線形層の減少に近づく。
ネットワークの後半部分において,全オクティック同変あるいは破壊同変のどちらかであるオクティックブロックから構築された2つの新しいViT族について検討する。
The training octic ViTs supervised (DeiT-III) and unsupervised (DINOv2) on ImageNet-1K, we found that they match baseline accuracy while as the same time as significant efficiency gains。
関連論文リスト
- Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Evaluating Vision Transformer Methods for Deep Reinforcement Learning
from Pixels [7.426118390008397]
画像に基づく強化学習制御タスクに対する視覚変換器(ViT)訓練手法の評価を行った。
これらの結果を,主要な畳み込みネットワークアーキテクチャ手法であるRADと比較する。
RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-04-11T07:10:58Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training [29.20567759071523]
ビジョントランスフォーマー(ViT)は急速に発展し、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
本稿では,上位境界のネットワークアーキテクチャを保ちながら,CNNのインダクティブバイアスをViTに戻す。
CIFAR-10/100 と ImageNet-1k の限られたトレーニングデータによる実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-07T07:56:50Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - ViTGAN: Training GANs with Vision Transformers [46.769407314698434]
視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。
ViTを用いたGANのトレーニングのための新しい正規化手法をいくつか紹介する。
我々のアプローチはViTGANと呼ばれ、3つのデータセット上の主要なCNNベースのGANモデルに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2021-07-09T17:59:30Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。