論文の概要: Compress image to patches for Vision Transformer
- arxiv url: http://arxiv.org/abs/2502.10120v2
- Date: Mon, 17 Feb 2025 07:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:42.771797
- Title: Compress image to patches for Vision Transformer
- Title(参考訳): Vision Transformer 用パッチへの画像圧縮
- Authors: Xinfeng Zhao, Yaoru Sun,
- Abstract要約: 本稿では、CI2P-ViTというCNNとVision Transformerに基づくハイブリッドモデルを提案する。
このモデルにはCI2Pと呼ばれるモジュールが組み込まれており、CompressAIエンコーダを使って画像を圧縮し、一連の畳み込みを通じてパッチのシーケンスを生成する。
アニマルズ-10データセットの地上訓練で、CI2P-ViTは92.37%の精度を達成し、ViT-B/16ベースラインよりも3.3%改善した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Vision Transformer (ViT) has made significant strides in the field of computer vision. However, as the depth of the model and the resolution of the input images increase, the computational cost associated with training and running ViT models has surged dramatically. This paper proposes a hybrid model based on CNN and Vision Transformer, named CI2P-ViT. The model incorporates a module called CI2P, which utilizes the CompressAI encoder to compress images and subsequently generates a sequence of patches through a series of convolutions. CI2P can replace the Patch Embedding component in the ViT model, enabling seamless integration into existing ViT models. Compared to ViT-B/16, CI2P-ViT has the number of patches input to the self-attention layer reduced to a quarter of the original. This design not only significantly reduces the computational cost of the ViT model but also effectively enhances the model's accuracy by introducing the inductive bias properties of CNN. The ViT model's precision is markedly enhanced. When trained from the ground up on the Animals-10 dataset, CI2P-ViT achieved an accuracy rate of 92.37%, representing a 3.3% improvement over the ViT-B/16 baseline. Additionally, the model's computational operations, measured in floating-point operations per second (FLOPs), were diminished by 63.35%, and it exhibited a 2-fold increase in training velocity on identical hardware configurations.
- Abstract(参考訳): Vision Transformer (ViT) はコンピュータビジョンの分野で大きな進歩を遂げた。
しかし、モデル深度と入力画像の解像度が増大するにつれて、トレーニングやViTモデルの実行に伴う計算コストが劇的に上昇している。
本稿では、CI2P-ViTというCNNとVision Transformerに基づくハイブリッドモデルを提案する。
このモデルにはCI2Pと呼ばれるモジュールが組み込まれており、CompressAIエンコーダを使って画像を圧縮し、一連の畳み込みを通じてパッチのシーケンスを生成する。
CI2Pは、既存のViTモデルへのシームレスな統合を可能にするために、ViTモデルのPatch Embeddingコンポーネントを置き換えることができる。
ViT-B/16と比較すると、CI2P-ViTは自己保持層に入力されるパッチの数を元の4分の1に減らしている。
この設計は、ViTモデルの計算コストを大幅に削減するだけでなく、CNNの帰納バイアス特性を導入することにより、モデルの精度を効果的に向上させる。
ViTモデルの精度は著しく向上している。
アニマルズ-10データセットの地上訓練で、CI2P-ViTは92.37%の精度を達成し、ViT-B/16ベースラインよりも3.3%改善した。
さらに、1秒あたりの浮動小数点演算(FLOP)で測定されたモデルの計算処理は63.35%減少し、同じハードウェア構成でトレーニング速度が2倍に向上した。
関連論文リスト
- DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices [42.89175608336226]
ビジョントランス (ViT) は、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成した。
ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約されたエッジデバイスへのデプロイが困難になる。
本稿では,大規模なViTを分解してエッジ展開を容易にするために,DeViTと呼ばれる協調推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-10T12:26:17Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Early Convolutions Help Transformers See Better [63.21712652156238]
視覚変換器(ViT)モデルは準標準最適化性を示す。
現代の畳み込みニューラルネットワークは、最適化がはるかに容易である。
畳み込みステムをViTで使用すると、最適化の安定性が劇的に向上し、ピーク性能も向上する。
論文 参考訳(メタデータ) (2021-06-28T17:59:33Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。