論文の概要: Powerful Design of Small Vision Transformer on CIFAR10
- arxiv url: http://arxiv.org/abs/2501.06220v1
- Date: Tue, 07 Jan 2025 00:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 17:24:53.307089
- Title: Powerful Design of Small Vision Transformer on CIFAR10
- Title(参考訳): CIFAR10を用いた小型ビジョントランスのパワーフル設計
- Authors: Gent Wu,
- Abstract要約: ViT(Vision Transformers)は大規模なデータセットで顕著な成功を収めているが、小さなデータセットのパフォーマンスはCNNに劣ることが多い。
本稿では、CIFAR-10をベンチマークとして、小さなデータセットに対するTiny ViTの設計と最適化について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Vision Transformers (ViTs) have demonstrated remarkable success on large-scale datasets, but their performance on smaller datasets often falls short of convolutional neural networks (CNNs). This paper explores the design and optimization of Tiny ViTs for small datasets, using CIFAR-10 as a benchmark. We systematically evaluate the impact of data augmentation, patch token initialization, low-rank compression, and multi-class token strategies on model performance. Our experiments reveal that low-rank compression of queries in Multi-Head Latent Attention (MLA) incurs minimal performance loss, indicating redundancy in ViTs. Additionally, introducing multiple CLS tokens improves global representation capacity, boosting accuracy. These findings provide a comprehensive framework for optimizing Tiny ViTs, offering practical insights for efficient and effective designs. Code is available at https://github.com/erow/PoorViTs.
- Abstract(参考訳): ViT(Vision Transformers)は大規模なデータセットで顕著な成功を収めているが、小さなデータセットのパフォーマンスは畳み込みニューラルネットワーク(CNN)に劣ることが多い。
本稿では、CIFAR-10をベンチマークとして、小さなデータセットに対するTiny ViTの設計と最適化について検討する。
我々は,データ拡張,パッチトークンの初期化,低ランク圧縮,マルチクラストークン戦略がモデル性能に与える影響を体系的に評価した。
実験により,マルチヘッド遅延注意(MLA)におけるクエリの低ランク圧縮が最小性能損失を生じ,ViTの冗長性が示唆された。
さらに、複数のCLSトークンを導入することで、グローバル表現能力が向上し、精度が向上する。
これらの発見はTiny ViTsを最適化するための包括的なフレームワークを提供し、効率的かつ効果的な設計のための実践的な洞察を提供する。
コードはhttps://github.com/erow/PoorViTsで入手できる。
関連論文リスト
- MSCViT: A Small-size ViT architecture with Multi-Scale Self-Attention Mechanism for Tiny Datasets [3.8601741392210434]
Vision Transformer (ViT) は、長距離依存をモデル化する強力な能力のため、様々な視覚タスクにおいて有意義な可能性を証明している。
本稿では,マルチスケールの自己認識機構とコンボリューションブロックを備えた小型ViTアーキテクチャを提案する。
CIFAR-100では14.0Mパラメータと2.5GFLOPで84.68%の精度を達成し、大規模なデータセットで事前トレーニングを行わない。
論文 参考訳(メタデータ) (2025-01-10T15:18:05Z) - Structured Initialization for Attention in Vision Transformers [34.374054040300805]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャ上の帰納バイアスを持ち、小規模な問題に対してうまく機能する。
我々は、CNNに固有のアーキテクチャバイアスを、ViT内の初期化バイアスとして再解釈することができると論じる。
この洞察は、ViTsが大規模アプリケーションに対する柔軟性を維持しながら、小規模問題でも同じように機能する権限を付与する上で重要である。
論文 参考訳(メタデータ) (2024-04-01T14:34:47Z) - Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - Vision Transformer for Small-Size Datasets [23.855575212090365]
本稿では,SPT(Shifted Patch Tokenization)とLSA(Locality Self-Attention)を提案する。
SPTとLSAは、局所性帰納バイアスの欠如を効果的に解決し、小さなデータセットでもスクラッチから学習することができる。
実験の結果、SPTとLSAの両方をViTに適用すると、Tiny-ImageNetでは平均2.96%の性能向上が見られた。
論文 参考訳(メタデータ) (2021-12-27T03:24:03Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。