論文の概要: Structured Initialization for Vision Transformers
- arxiv url: http://arxiv.org/abs/2505.19985v1
- Date: Mon, 26 May 2025 13:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.473462
- Title: Structured Initialization for Vision Transformers
- Title(参考訳): 視覚変換器の構造化初期化
- Authors: Jianqiao Zheng, Xueqian Li, Hemanth Saratchandran, Simon Lucey,
- Abstract要約: データアセットが小さくても強力なCNNライクなパフォーマンスを享受できるViTを開発したが、データの拡大に伴ってViTライクなパフォーマンスに拡張できる。
提案手法は,CNN内の学習フィルタに対して,ランダムインパルスフィルタが共振性能を達成できるという経験的結果に動機付けられている。
- 参考スコア(独自算出の注目度): 29.32921916396698
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Convolutional Neural Networks (CNNs) inherently encode strong inductive biases, enabling effective generalization on small-scale datasets. In this paper, we propose integrating this inductive bias into ViTs, not through an architectural intervention but solely through initialization. The motivation here is to have a ViT that can enjoy strong CNN-like performance when data assets are small, but can still scale to ViT-like performance as the data expands. Our approach is motivated by our empirical results that random impulse filters can achieve commensurate performance to learned filters within a CNN. We improve upon current ViT initialization strategies, which typically rely on empirical heuristics such as using attention weights from pretrained models or focusing on the distribution of attention weights without enforcing structures. Empirical results demonstrate that our method significantly outperforms standard ViT initialization across numerous small and medium-scale benchmarks, including Food-101, CIFAR-10, CIFAR-100, STL-10, Flowers, and Pets, while maintaining comparative performance on large-scale datasets such as ImageNet-1K. Moreover, our initialization strategy can be easily integrated into various transformer-based architectures such as Swin Transformer and MLP-Mixer with consistent improvements in performance.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は本質的に強い帰納バイアスを符号化し、小規模データセットの効果的な一般化を可能にする。
本稿では,この帰納バイアスをViTに組み込むことを提案する。
ここでのモチベーションは、データ資産が小さいときに強力なCNNのようなパフォーマンスを享受できるが、データが拡大するにつれてViTのようなパフォーマンスにスケールできるViTを作ることだ。
提案手法は,CNN内の学習フィルタに対して,ランダムインパルスフィルタが共振性能を達成できるという経験的結果に動機付けられている。
我々は、通常、事前訓練されたモデルからの注意重みの使用や、構造を強制せずに注意重みの分布に焦点をあてるといった経験的ヒューリスティックに頼っている、現在のViT初期化戦略を改善した。
その結果,ImageNet-1Kなどの大規模データセットとの比較性能を維持しつつ,Food-101,CIFAR-10,CIFAR-100,STL-10,Flowers,Petsなど,多数の小規模・中規模ベンチマークの標準ViT初期化を著しく上回る結果が得られた。
さらに,Swin Transformer や MLP-Mixer などのトランスフォーマーベースのアーキテクチャに,パフォーマンスを一貫した改善を加えた初期化戦略を容易に組み込むことができる。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Powerful Design of Small Vision Transformer on CIFAR10 [0.0]
ViT(Vision Transformers)は大規模なデータセットで顕著な成功を収めているが、小さなデータセットのパフォーマンスはCNNに劣ることが多い。
本稿では、CIFAR-10をベンチマークとして、小さなデータセットに対するTiny ViTの設計と最適化について検討する。
論文 参考訳(メタデータ) (2025-01-07T00:41:34Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Structured Initialization for Attention in Vision Transformers [34.374054040300805]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャ上の帰納バイアスを持ち、小規模な問題に対してうまく機能する。
我々は、CNNに固有のアーキテクチャバイアスを、ViT内の初期化バイアスとして再解釈することができると論じる。
この洞察は、ViTsが大規模アプリケーションに対する柔軟性を維持しながら、小規模問題でも同じように機能する権限を付与する上で重要である。
論文 参考訳(メタデータ) (2024-04-01T14:34:47Z) - Convolutional Initialization for Data-Efficient Vision Transformers [38.63299194992718]
小さなデータセット上のビジョントランスフォーマーネットワークのトレーニングには課題がある。
CNNはアーキテクチャ上の帰納バイアスを利用して最先端のパフォーマンスを達成することができる。
我々のアプローチは、ランダムなインパルスフィルタがCNNの学習フィルタとほぼ同等の性能を達成できるという発見に動機づけられている。
論文 参考訳(メタデータ) (2024-01-23T06:03:16Z) - Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。