論文の概要: Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics
- arxiv url: http://arxiv.org/abs/2404.09245v1
- Date: Sun, 14 Apr 2024 13:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:48:15.358990
- Title: Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics
- Title(参考訳): Arena:エッジ支援ビデオ分析のための興味あるViT推論高速化システム
- Authors: Haosong Peng, Wei Feng, Hao Li, Yufeng Zhan, Qihua Zhou, Yuanqing Xia,
- Abstract要約: 視覚変換器(ViT)を用いたエッジ・ツー・エンドビデオ推論高速化システムであるArenaを紹介する。
その結果、アリーナは平均で1.58タイムと1.82タイム、それぞれ54%と34%の帯域しか消費せず、それぞれ高い推論精度で推論速度を最大で1.58タイムと1.82タイムに向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 19.874783636389065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of edge computing has made real-time intelligent video analytics feasible. Previous works, based on traditional model architecture (e.g., CNN, RNN, etc.), employ various strategies to filter out non-region-of-interest content to minimize bandwidth and computation consumption but show inferior performance in adverse environments. Recently, visual foundation models based on transformers have shown great performance in adverse environments due to their amazing generalization capability. However, they require a large amount of computation power, which limits their applications in real-time intelligent video analytics. In this paper, we find visual foundation models like Vision Transformer (ViT) also have a dedicated acceleration mechanism for video analytics. To this end, we introduce Arena, an end-to-end edge-assisted video inference acceleration system based on ViT. We leverage the capability of ViT that can be accelerated through token pruning by only offloading and feeding Patches-of-Interest (PoIs) to the downstream models. Additionally, we employ probability-based patch sampling, which provides a simple but efficient mechanism for determining PoIs where the probable locations of objects are in subsequent frames. Through extensive evaluations on public datasets, our findings reveal that Arena can boost inference speeds by up to $1.58\times$ and $1.82\times$ on average while consuming only 54% and 34% of the bandwidth, respectively, all with high inference accuracy.
- Abstract(参考訳): エッジコンピューティングの出現により、リアルタイムのインテリジェントなビデオ分析が可能になった。
従来のモデルアーキテクチャ(例えば、CNN、RNNなど)に基づいて、帯域幅と計算消費を最小限に抑えるために、関心のないコンテンツをフィルタリングする様々な戦略を採用しているが、悪環境下では性能が劣っている。
近年, 変換器をベースとした視覚基礎モデルは, 驚くほどの一般化能力により, 悪環境下での優れた性能を示した。
しかし、それらは大量の計算能力を必要としており、リアルタイムのインテリジェントなビデオ分析における応用を制限している。
本稿では、視覚変換器(ViT)のような視覚基盤モデルにも、ビデオ解析のための専用の加速度機構があることを見出した。
そこで本研究では,ViTに基づくエッジ・ツー・エンドのビデオ推論高速化システムであるArenaを紹介する。
We leverage the capabilities of ViT which can accelerated through token pruning by only offloading and feed Patches-of-Interest (PoIs) to the downstream model。
さらに、確率に基づくパッチサンプリングを用いて、オブジェクトの可能な位置が後続のフレームにあるかどうかをPoIを決定するための、シンプルだが効率的なメカニズムを提供する。
公開データセットに対する広範な評価により、Arenaは平均1.58\times$と1.82\times$の推論速度を向上でき、それぞれ帯域幅の54%と34%しか消費していないことが明らかになった。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Deformable VisTR: Spatio temporal deformable attention for video
instance segmentation [79.76273774737555]
ビデオインスタンスセグメンテーション(VIS)タスクは、クリップ内のすべてのフレーム上でのオブジェクトインスタンスのセグメンテーション、分類、追跡を必要とする。
近年、VisTRは最先端の性能を実証しつつ、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。
本稿では,小さな鍵時間サンプリングポイントのみに対応する時間変形型アテンションモジュールであるDeformable VisTRを提案する。
論文 参考訳(メタデータ) (2022-03-12T02:27:14Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - VidTr: Video Transformer Without Convolutions [32.710988574799735]
時間的映像分類のための分離アテンション付きビデオトランスフォーマー(VidTr)を導入する。
VidTrは、スタックされた注意を通して時間情報を集約し、より高い効率でパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-04-23T17:59:01Z) - Towards Unsupervised Fine-Tuning for Edge Video Analytics [1.1091582432763736]
自動モデル特殊化による余分な計算コストを伴わずにエッジモデルの精度を向上させる手法を提案する。
その結果,本手法は,事前学習モデルの精度を平均21%向上できることがわかった。
論文 参考訳(メタデータ) (2021-04-14T12:57:40Z) - ApproxDet: Content and Contention-Aware Approximate Object Detection for
Mobiles [19.41234144545467]
本稿では,モバイル機器用適応型ビデオオブジェクト検出フレームワークであるApproxDetを紹介する。
大規模なベンチマークビデオデータセット上でApproxDetを評価し,AdaScaleやYOLOv3と比較した。
ApproxDetは、幅広いコンテントやコンテンツの特徴に適応し、すべてのベースラインを誇張することができる。
論文 参考訳(メタデータ) (2020-10-21T04:11:05Z) - Real-Time Video Inference on Edge Devices via Adaptive Model Streaming [9.101956442584251]
携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。
本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:25:44Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。