論文の概要: ViTMAlis: Towards Latency-Critical Mobile Video Analytics with Vision Transformers
- arxiv url: http://arxiv.org/abs/2601.21362v1
- Date: Thu, 29 Jan 2026 07:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.65284
- Title: ViTMAlis: Towards Latency-Critical Mobile Video Analytics with Vision Transformers
- Title(参考訳): ViTMAlis:視覚変換器によるレイテンシクリティカルなモバイルビデオ分析を目指して
- Authors: Miao Zhang, Guanzhen Wu, Hao Fang, Yifei Zhu, Fangxin Wang, Ruixiao Zhang, Jiangchuan Liu,
- Abstract要約: 視覚変換器(ViTs)のためのデバイス間オフロードフレームワークViTMAlisを紹介する。
ViTMAlisは、ユーザの認識したレンダリング精度を改善しながら、エンドツーエンドのオフロード遅延を低減する。
我々は,コモディティモバイルおよびエッジデバイス上で,VTMAlisの完全機能プロトタイプを実装した。
- 参考スコア(独自算出の注目度): 28.741078014867323
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Edge-assisted mobile video analytics (MVA) applications are increasingly shifting from using vision models based on convolutional neural networks (CNNs) to those built on vision transformers (ViTs) to leverage their superior global context modeling and generalization capabilities. However, deploying these advanced models in latency-critical MVA scenarios presents significant challenges. Unlike traditional CNN-based offloading paradigms where network transmission is the primary bottleneck, ViT-based systems are constrained by substantial inference delays, particularly for dense prediction tasks where the need for high-resolution inputs exacerbates the inherent quadratic computational complexity of ViTs. To address these challenges, we propose a dynamic mixed-resolution inference strategy tailored for ViT-backboned dense prediction models, enabling flexible runtime trade-offs between speed and accuracy. Building on this, we introduce ViTMAlis, a ViT-native device-to-edge offloading framework that dynamically adapts to network conditions and video content to jointly reduce transmission and inference delays. We implement a fully functional prototype of ViTMAlis on commodity mobile and edge devices. Extensive experiments demonstrate that, compared to state-of-the-art accuracy-centric, content-aware, and latency-adaptive baselines, ViTMAlis significantly reduces end-to-end offloading latency while improving user-perceived rendering accuracy, providing a practical foundation for next-generation mobile intelligence.
- Abstract(参考訳): エッジ支援モバイルビデオ分析(MVA)アプリケーションは、畳み込みニューラルネットワーク(CNN)に基づくビジョンモデルから、その優れたグローバルコンテキストモデリングと一般化機能を活用するビジョントランスフォーマー(ViT)上に構築されたものへと、ますますシフトしている。
しかし、これらの高度なモデルをレイテンシクリティカルなMVAシナリオにデプロイすることは、重大な課題である。
ネットワーク伝送が主要なボトルネックとなる従来のCNNベースのオフロードパラダイムとは異なり、ViTベースのシステムは、特に高解像度の入力を必要とするような高密度な予測タスクにおいて、大きな推論遅延によって制約される。
これらの課題に対処するために、ViTバックボンド密度予測モデルに適した動的混合分解能推論戦略を提案し、速度と精度の間の柔軟なランタイムトレードオフを可能にする。
ViTMAlisはVTネイティブなデバイス間オフロードフレームワークで、ネットワーク条件やビデオコンテンツに動的に適応し、送信と推論の遅延を共同で低減する。
我々は,コモディティモバイルおよびエッジデバイス上で,VTMAlisの完全機能プロトタイプを実装した。
大規模な実験では、最先端の精度中心、コンテンツ認識、レイテンシ適応ベースラインと比較して、ViTMAlisは、ユーザの認識したレンダリング精度を改善しながら、エンドツーエンドのオフロード遅延を大幅に削減し、次世代モバイルインテリジェンスのための実用的な基盤を提供する。
関連論文リスト
- VLNVerse: A Benchmark for Vision-Language Navigation with Versatile, Embodied, Realistic Simulation and Evaluation [61.82502719679122]
本稿では,Versatile, Embodied, Realistic Simulation, EvaluationのベンチマークであるVLNVerseを紹介する。
VLNVerseは、スケーラブルでフルスタックのAI問題としてVLNを再定義する。
ベンチマーク内の全てのタスクに対処できる新しいマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2025-12-22T04:27:26Z) - OneTrack-M: A multitask approach to transformer-based MOT models [0.0]
マルチオブジェクト追跡(MOT)はコンピュータビジョンにおいて重要な問題である。
OneTrack-Mは、計算効率と精度のトラッキングを強化するために設計されたトランスフォーマーベースのMOTモデルである。
論文 参考訳(メタデータ) (2025-02-06T20:02:06Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - LinFormer: A Linear-based Lightweight Transformer Architecture For Time-Aware MIMO Channel Prediction [39.12741712294741]
第6世代(6G)モバイルネットワークは、ハイモビリティ通信をサポートする上で、新たな課題をもたらす。
本稿では,スケーラブルで全線形なエンコーダのみのトランスフォーマーモデルに基づく,革新的なチャネル予測フレームワークLinFormerを提案する。
提案手法は,高い予測精度を維持しつつ,計算複雑性を大幅に低減し,コスト効率のよい基地局(BS)の展開に適している。
論文 参考訳(メタデータ) (2024-10-28T13:04:23Z) - Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文 参考訳(メタデータ) (2024-08-12T07:03:35Z) - Rethinking Urban Mobility Prediction: A Super-Multivariate Time Series
Forecasting Approach [71.67506068703314]
長期の都市移動予測は、都市施設やサービスの効果的管理において重要な役割を担っている。
伝統的に、都市移動データはビデオとして構成され、経度と緯度を基本的なピクセルとして扱う。
本研究では,都市におけるモビリティ予測の新たな視点について紹介する。
都市移動データを従来のビデオデータとして単純化するのではなく、複雑な時系列と見なす。
論文 参考訳(メタデータ) (2023-12-04T07:39:05Z) - Soft Error Reliability Analysis of Vision Transformers [14.132398744731635]
自己注意機構を利用する視覚変換器(ViT)は、多くの古典的な視覚タスクにおいて優れた性能を示している。
既存のViTは、主に性能と精度を最適化するが、ソフトエラーによって引き起こされるViTの信頼性問題は概して見過ごされている。
本研究では,ViTの信頼性について検討し,異なるアーキテクチャの粒度の脆弱性について検討する。
論文 参考訳(メタデータ) (2023-02-21T06:17:40Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。