論文の概要: CascadedViT: Cascaded Chunk-FeedForward and Cascaded Group Attention Vision Transformer
- arxiv url: http://arxiv.org/abs/2511.14111v1
- Date: Tue, 18 Nov 2025 03:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.92062
- Title: CascadedViT: Cascaded Chunk-FeedForward and Cascaded Group Attention Vision Transformer
- Title(参考訳): CascadedViT: Cascaded Chunk-Feed ForwardとCascaded Group Attention Vision Transformer
- Authors: Srivathsan Sivakumar, Faisal Z. Qureshi,
- Abstract要約: 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
本稿では,軽量かつ計算効率の良い視覚変換器アーキテクチャであるemph Cascaded-ViT(CViT)を提案する。
CCFFNは精度を犠牲にすることなくパラメータとFLOP効率を改善する。
- 参考スコア(独自算出の注目度): 1.9336815376402718
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Transformers (ViTs) have demonstrated remarkable performance across a range of computer vision tasks; however, their high computational, memory, and energy demands hinder deployment on resource-constrained platforms. In this paper, we propose \emph{Cascaded-ViT (CViT)}, a lightweight and compute-efficient vision transformer architecture featuring a novel feedforward network design called \emph{Cascaded-Chunk Feed Forward Network (CCFFN)}. By splitting input features, CCFFN improves parameter and FLOP efficiency without sacrificing accuracy. Experiments on ImageNet-1K show that our \emph{CViT-XL} model achieves 75.5\% Top-1 accuracy while reducing FLOPs by 15\% and energy consumption by 3.3\% compared to EfficientViT-M5. Across various model sizes, the CViT family consistently exhibits the lowest energy consumption, making it suitable for deployment on battery-constrained devices such as mobile phones and drones. Furthermore, when evaluated using a new metric called \emph{Accuracy-Per-FLOP (APF)}, which quantifies compute efficiency relative to accuracy, CViT models consistently achieve top-ranking efficiency. Particularly, CViT-L is 2.2\% more accurate than EfficientViT-M2 while having comparable APF scores.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクにおいて顕著な性能を示しているが、その高い計算量、メモリ、エネルギー要求は、リソース制約のあるプラットフォームへの展開を妨げる。
本稿では,新しいフィードフォワードネットワーク設計(CCFFN)を特徴とする軽量かつ計算効率の高いビジョントランスフォーマーアーキテクチャである \emph{Cascaded-Chunk Feed Forward Network (CCFFN) を提案する。
入力特徴を分割することにより、CCFFNは精度を犠牲にすることなくパラメータとFLOP効率を改善する。
ImageNet-1Kでの実験では、我々の \emph{CViT-XL} モデルは、効率の良いViT-M5と比較して、FLOPsを15倍、エネルギー消費を3.3倍減らしながら、75.5倍のTop-1精度を実現している。
様々なモデルサイズで、CViTファミリーは一貫して最低のエネルギー消費を示しており、携帯電話やドローンのようなバッテリーに制限されたデバイスに展開するのに適している。
さらに、精度に対して計算効率を定量化する「emph{Accuracy-Per-FLOP(APF)」と呼ばれる新しい計量を用いて評価すると、CViTモデルは、常に最上位の効率を達成する。
特にCViT-LはEfficientViT-M2よりも2.2\%正確であるが、APFスコアは同等である。
関連論文リスト
- LL-ViT: Edge Deployable Vision Transformers with Look Up Table Neurons [1.213604453116022]
ビジョントランスフォーマーはコンピュータビジョンタスクで非常に成功しています。
大規模計算、メモリ、エネルギー要求はFPGAにおけるエッジ推論の課題である。
本稿では,新しいエッジ最適化型視覚変換器であるLL-ViTを提案する。
論文 参考訳(メタデータ) (2025-11-02T05:51:48Z) - TReX- Reusing Vision Transformer's Attention for Efficient Xbar-based Computing [12.583079680322156]
本稿では,注目度に基づくViT最適化フレームワークであるTReXを提案する。
We found that TReX achieves 2.3x (2.19x) EDAP reduction and 1.86x (1.79x) TOPS/mm2 improve with 1% accuracy drop in case of DeiT-S (LV-ViT-S) ViT models。
CoLAのようなNLPタスクでは、TReXは、基準線が1.6倍低いEDAPよりも2%高い非理想的精度をもたらす。
論文 参考訳(メタデータ) (2024-08-22T21:51:38Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - CP-ViT: Cascade Vision Transformer Pruning via Progressive Sparsity
Prediction [16.578899848650675]
ViT(Vision Transformer)は、様々なコンピュータビジョンアプリケーションにおいて、競合する精度を達成したが、その計算コストは、リソース制限されたモバイルデバイスへのデプロイを妨げる。
本稿では, CP-ViTモデルにおいて, 精度損失を最小化しつつ, 計算冗長性を抑えるために, 動的かつ段階的に間隔を予測し, CP-ViTと呼ばれるカスケード刈り込みフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T08:15:14Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。