論文の概要: TFormer: A Transmission-Friendly ViT Model for IoT Devices
- arxiv url: http://arxiv.org/abs/2302.07734v1
- Date: Wed, 15 Feb 2023 15:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 14:41:51.742402
- Title: TFormer: A Transmission-Friendly ViT Model for IoT Devices
- Title(参考訳): TFormer:IoTデバイス用のトランスミッションフレンドリーなViTモデル
- Authors: Zhichao Lu, Chuntao Ding, Felix Juefei-Xu, Vishnu Naresh Boddeti,
Shangguang Wang, and Yun Yang
- Abstract要約: 本稿では、クラウドサーバの助けを借りて、リソースに制約のあるIoTデバイスに展開するためのトランスミッションフレンドリーなViTモデルであるTFormerを提案する。
ImageNet-1K、MS COCO、ADE20Kデータセットによる画像分類、オブジェクト検出、セマンティックセグメンテーションタスクの実験結果は、提案モデルが他の最先端モデルよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 23.67389080796814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying high-performance vision transformer (ViT) models on ubiquitous
Internet of Things (IoT) devices to provide high-quality vision services will
revolutionize the way we live, work, and interact with the world. Due to the
contradiction between the limited resources of IoT devices and
resource-intensive ViT models, the use of cloud servers to assist ViT model
training has become mainstream. However, due to the larger number of parameters
and floating-point operations (FLOPs) of the existing ViT models, the model
parameters transmitted by cloud servers are large and difficult to run on
resource-constrained IoT devices. To this end, this paper proposes a
transmission-friendly ViT model, TFormer, for deployment on
resource-constrained IoT devices with the assistance of a cloud server. The
high performance and small number of model parameters and FLOPs of TFormer are
attributed to the proposed hybrid layer and the proposed partially connected
feed-forward network (PCS-FFN). The hybrid layer consists of nonlearnable
modules and a pointwise convolution, which can obtain multitype and multiscale
features with only a few parameters and FLOPs to improve the TFormer
performance. The PCS-FFN adopts group convolution to reduce the number of
parameters. The key idea of this paper is to propose TFormer with few model
parameters and FLOPs to facilitate applications running on resource-constrained
IoT devices to benefit from the high performance of the ViT models.
Experimental results on the ImageNet-1K, MS COCO, and ADE20K datasets for image
classification, object detection, and semantic segmentation tasks demonstrate
that the proposed model outperforms other state-of-the-art models.
Specifically, TFormer-S achieves 5% higher accuracy on ImageNet-1K than
ResNet18 with 1.4$\times$ fewer parameters and FLOPs.
- Abstract(参考訳): 高品質なビジョンサービスを提供するために、ユビキタスモノのインターネット(IoT)デバイスに高性能なビジョントランスフォーマー(ViT)モデルをデプロイすることは、私たちの生活、仕事、世界との対話の方法に革命をもたらす。
IoTデバイスの限られたリソースとリソース集約型ViTモデルの矛盾により、ViTモデルのトレーニングを支援するクラウドサーバの利用が主流になっている。
しかし、既存のViTモデルのパラメータや浮動小数点演算(FLOP)の数が多いため、クラウドサーバが送信するモデルパラメータは大きく、リソースに制約のあるIoTデバイス上での実行は困難である。
そこで本稿では,クラウドサーバの助けを借りて,リソース制約のIoTデバイスに展開するトランスミッションフレンドリーなViTモデルであるTFormerを提案する。
tformerの高性能かつ少数のモデルパラメータとフラップは,提案するハイブリッド層と,提案する部分接続フィードフォワードネットワーク (pcs-ffn) によるものである。
ハイブリッド層は、学習不能なモジュールと、TFormerの性能を改善するために、少数のパラメータとFLOPしか持たないマルチタイプおよびマルチスケールの機能を得ることができるポイントワイズ・コンボリューションで構成されている。
PCS-FFNはパラメータ数を減らすためにグループ畳み込みを採用している。
本稿では,リソース制約されたIoTデバイス上で動作させるアプリケーションが,VTモデルの性能向上を享受するために,モデルパラメータの少ないTFormerとFLOPを提案する。
ImageNet-1K、MS COCO、ADE20Kデータセットによる画像分類、オブジェクト検出、セマンティックセグメンテーションタスクの実験結果は、提案モデルが他の最先端モデルよりも優れていることを示している。
具体的には、TFormer-SはResNet18よりもImageNet-1Kの方が5%高い精度で1.4$\times$少ないパラメータとFLOPを実現している。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - ED-ViT: Splitting Vision Transformer for Distributed Inference on Edge Devices [13.533267828812455]
本稿では,複数のエッジデバイスにまたがる複雑なモデルを効率的に実行するための新しいビジョントランスフォーマー分割フレームワークED-ViTを提案する。
具体的には、Vision Transformerモデルをいくつかのサブモデルに分割し、各サブモデルはデータクラスの特定のサブセットを処理するように調整します。
3つのモデル構造を持つ5つのデータセットに対して広範な実験を行い、エッジデバイスにおける推論遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-10-15T14:38:14Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices [42.89175608336226]
ビジョントランス (ViT) は、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成した。
ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約されたエッジデバイスへのデプロイが困難になる。
本稿では,大規模なViTを分解してエッジ展開を容易にするために,DeViTと呼ばれる協調推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-10T12:26:17Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。