論文の概要: Janus: Collaborative Vision Transformer Under Dynamic Network Environment
- arxiv url: http://arxiv.org/abs/2502.10047v1
- Date: Fri, 14 Feb 2025 09:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:44:43.044318
- Title: Janus: Collaborative Vision Transformer Under Dynamic Network Environment
- Title(参考訳): Janus: 動的ネットワーク環境下でのコラボレーション型視覚変換器
- Authors: Linyi Jiang, Silvery D. Fu, Yifei Zhu, Bo Li,
- Abstract要約: ビジョントランスフォーマー(ViT)は、従来の畳み込みニューラルネットワークアーキテクチャよりも優れており、様々なコンピュータビジョンタスクにおいて最先端の結果を達成した。
ViTは計算コストがかかるため、リソース制限されたエッジデバイス上でのみ動作させるか、変動するネットワークを介して送信された生データを受信した後、リモートクラウドサーバで実行する必要がある。
我々は、動的ネットワーク上での低レイテンシクラウド-デバイス協調型ビジョントランスフォーマー推論のための最初のフレームワークであるJanusを紹介する。
- 参考スコア(独自算出の注目度): 12.78456917946342
- License:
- Abstract: Vision Transformers (ViTs) have outperformed traditional Convolutional Neural Network architectures and achieved state-of-the-art results in various computer vision tasks. Since ViTs are computationally expensive, the models either have to be pruned to run on resource-limited edge devices only or have to be executed on remote cloud servers after receiving the raw data transmitted over fluctuating networks. The resulting degraded performance or high latency all hinder their widespread applications. In this paper, we present Janus, the first framework for low-latency cloud-device collaborative Vision Transformer inference over dynamic networks. Janus overcomes the intrinsic model limitations of ViTs and realizes collaboratively executing ViT models on both cloud and edge devices, achieving low latency, high accuracy, and low communication overhead. Specifically, Janus judiciously combines token pruning techniques with a carefully designed fine-to-coarse model splitting policy and non-static mixed pruning policy. It attains a balance between accuracy and latency by dynamically selecting the optimal pruning level and split point. Experimental results across various tasks demonstrate that Janus enhances throughput by up to 5.15 times and reduces latency violation ratios by up to 98.7% when compared with baseline approaches under various network environments.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、従来の畳み込みニューラルネットワークアーキテクチャよりも優れており、様々なコンピュータビジョンタスクにおいて最先端の結果を達成した。
ViTは計算コストがかかるため、リソース制限されたエッジデバイス上でのみ動作させるか、変動するネットワークを介して送信された生データを受信した後、リモートクラウドサーバで実行する必要がある。
その結果、パフォーマンスの低下や高いレイテンシが、その広範なアプリケーションを妨げる。
本稿では、動的ネットワーク上での低レイテンシクラウドデバイス協調型ビジョントランスフォーマー推論のための最初のフレームワークであるJanusを紹介する。
Janus氏は、ViTの本質的なモデル制限を克服し、クラウドとエッジデバイスの両方でViTモデルを協調的に実行し、低レイテンシ、高精度、通信オーバーヘッドの低減を実現している。
特に、Janusはトークンプルーニング技術と、慎重に設計された細粒度から粗いモデル分割ポリシーと非静的混合プルーニングポリシーを巧みに組み合わせている。
最適プルーニングレベルとスプリットポイントを動的に選択することで、精度とレイテンシのバランスを得る。
さまざまなタスクにわたる実験結果から、Janusはスループットを最大5.15倍に向上し、ネットワーク環境におけるベースラインアプローチと比較してレイテンシ違反率を最大98.7%削減した。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - RepNeXt: A Fast Multi-Scale CNN using Structural Reparameterization [8.346566205092433]
軽量畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、パラメータ効率と低レイテンシに好まれる。
本研究では,資源拘束型アプリケーションに適した多目的視覚バックボーンを開発するために,CNNとViTの相補的な利点について検討する。
論文 参考訳(メタデータ) (2024-06-23T04:11:12Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。
本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。
提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-15T22:04:49Z) - ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision
Transformer on Diverse Mobile Devices [15.489158878599383]
非常に大きな検索空間上で高品質なViTスーパーネットをトレーニングする2段階NASアプローチであるElasticViTを提案する。
本稿では,複雑性を意識したサンプリングと性能を意識したサンプリングという2つの新しいサンプリング手法を提案する。
我々のモデルは、ImageNetの67.2%から80.0%までのトップ1の精度を6000万から800万のFLOPから、余分なリトレーニングなしで達成している。
論文 参考訳(メタデータ) (2023-03-17T02:19:28Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - DynO: Dynamic Onloading of Deep Neural Networks from Cloud to Device [17.43467167013752]
両世界のベストを組み合わせ、いくつかの課題に取り組む分散推論フレームワークであるDynOを紹介します。
DynO が現在の最先端のパフォーマンスを上回り、デバイスのみの実行よりも桁違いにスループットが向上していることを示します。
論文 参考訳(メタデータ) (2021-04-20T13:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。