論文の概要: Parameter Reduction Improves Vision Transformers: A Comparative Study of Sharing and Width Reduction
- arxiv url: http://arxiv.org/abs/2512.01059v1
- Date: Sun, 30 Nov 2025 20:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.564564
- Title: Parameter Reduction Improves Vision Transformers: A Comparative Study of Sharing and Width Reduction
- Title(参考訳): パラメータ削減による視覚変換器の改良:共有化と幅化の比較検討
- Authors: Anantha Padmanaban Krishna Kumar,
- Abstract要約: 我々は、ImageNet-1K上で、ViT-B/16に適用した2つの簡易還元戦略について検討した。
その結果,パラメータ共有や幅の縮小といったアーキテクチャ上の制約が,帰納的バイアスとして有用であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although scaling laws and many empirical results suggest that increasing the size of Vision Transformers often improves performance, model accuracy and training behavior are not always monotonically increasing with scale. Focusing on ViT-B/16 trained on ImageNet-1K, we study two simple parameter-reduction strategies applied to the MLP blocks, each removing 32.7\% of the baseline parameters. Our \emph{GroupedMLP} variant shares MLP weights between adjacent transformer blocks and achieves 81.47\% top-1 accuracy while maintaining the baseline computational cost. Our \emph{ShallowMLP} variant halves the MLP hidden dimension and reaches 81.25\% top-1 accuracy with a 38\% increase in inference throughput. Both models outperform the 86.6M-parameter baseline (81.05\%) and exhibit substantially improved training stability, reducing peak-to-final accuracy degradation from 0.47\% to the range 0.03\% to 0.06\%. These results suggest that, for ViT-B/16 on ImageNet-1K with a standard training recipe, the model operates in an overparameterized regime in which MLP capacity can be reduced without harming performance and can even slightly improve it. More broadly, our findings suggest that architectural constraints such as parameter sharing and reduced width may act as useful inductive biases, and highlight the importance of how parameters are allocated when designing Vision Transformers. All code is available at: https://github.com/AnanthaPadmanaban-KrishnaKumar/parameter-efficient-vit-mlps.
- Abstract(参考訳): スケーリング法則や多くの実証的な結果から、視覚変換器のサイズが大きくなると性能が向上することがしばしば示唆されるが、モデル精度とトレーニングの振る舞いはスケールによって常に単調に増加するとは限らない。
ImageNet-1KでトレーニングされたViT-B/16に着目し、MPPブロックに適用された2つの単純なパラメータ還元戦略について検討し、基本パラメータの32.7%を除去した。
我々の \emph{GroupedMLP} 変種は、隣接する変圧器ブロック間で MLP 重みを共有し、ベースライン計算コストを維持しながら81.47\% のトップ-1 の精度を達成する。
我々の \emph{ShallowMLP} 変種は MLP の隠れ次元を半減し、推論スループットが 38 % 増加して 81.25 % のトップ-1 の精度に達する。
どちらのモデルも86.6Mパラメータのベースライン(81.05.%)を上回っ、トレーニングの安定性が大幅に向上し、ピーク・ツー・ファイナルの精度が0.47.%から0.03.%に低下した。
これらの結果から,ImageNet-1K 上の ViT-B/16 では,MPP のキャパシティが性能を損なわずに低下し,さらにわずかに改善できる過パラメータ化方式で動作することが示唆された。
より広い範囲で見れば,パラメータ共有や幅の縮小といったアーキテクチャ上の制約が帰納的バイアスとして有用である可能性が示唆され,視覚変換器の設計におけるパラメータの割り当ての重要性が強調された。
すべてのコードは、https://github.com/AnanthaPadmanaban-KrishnaKumar/parameter- efficient-vit-mlpsで入手できる。
関連論文リスト
- Diversity-Guided MLP Reduction for Efficient Large Vision Transformers [62.33249256133204]
トランスフォーマーモデルは優れたスケーリング特性を実現し、モデルキャパシティの増大により性能が向上する。
大規模モデルパラメータは、計算とメモリの大幅なコストにつながる。
そこで本稿では,大規模な視覚変換器のパラメータを著しく削減するDGMR法を提案する。
論文 参考訳(メタデータ) (2025-06-10T08:59:27Z) - SpiLiFormer: Enhancing Spiking Transformers with Lateral Inhibition [29.724968607408048]
トランスフォーマーに基づくスパイクニューラルネットワーク(SNN)は、優れた性能と高エネルギー効率のために大きな注目を集めている。
本研究では,無関係な文脈に過度に注意を集中する問題に対処するために,横方向抑制インスパイアされたスパイキング変換器(SpiLiFormer)を提案する。
SpiLiFormerは、脳の側方抑制機構をエミュレートし、無関係なトークンへの注意を抑えながら、関連するトークンへの注意を高めるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-03-20T09:36:31Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの計算タスクで素晴らしいパフォーマンスを達成した。
密度の高い接続は、より大きな膨張比をサポートするスパースブロック対角構造に置き換えることができることを示す。
また、トレーニング中に並列分岐として、軽量でパラメータフリーなチャネル共分散アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。