Fugu-MT 論文翻訳(概要): Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics

論文の概要: Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics

arxiv url: http://arxiv.org/abs/2404.09245v2
Date: Thu, 26 Sep 2024 01:25:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 03:14:33.996421
Title: Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics
Title（参考訳）: Arena:エッジ支援ビデオ分析のための興味あるViT推論高速化システム
Authors: Haosong Peng, Wei Feng, Hao Li, Yufeng Zhan, Ren Jin, Yuanqing Xia,
Abstract要約: 視覚変換器(ViT)を用いたエッジ・ツー・エンドビデオ推論高速化システムを提案する。その結果、Arenaは平均で1.58(時間)と1.82(時間)の推論速度を向上でき、それぞれ帯域幅の47%と31%しか消費していないことがわかった。
参考スコア（独自算出の注目度）: 18.042752812489276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of edge computing has made real-time intelligent video analytics feasible. Previous works, based on traditional model architecture (e.g., CNN, RNN, etc.), employ various strategies to filter out non-region-of-interest content to minimize bandwidth and computation consumption but show inferior performance in adverse environments. Recently, visual foundation models based on transformers have shown great performance in adverse environments due to their amazing generalization capability. However, they require a large amount of computation power, which limits their applications in real-time intelligent video analytics. In this paper, we find visual foundation models like Vision Transformer (ViT) also have a dedicated acceleration mechanism for video analytics. To this end, we introduce Arena, an end-to-end edge-assisted video inference acceleration system based on ViT. We leverage the capability of ViT that can be accelerated through token pruning by only offloading and feeding Patches-of-Interest to the downstream models. Additionally, we design an adaptive keyframe inference switching algorithm tailored to different videos, capable of adapting to the current video content to jointly optimize accuracy and bandwidth. Through extensive experiments, our findings reveal that Arena can boost inference speeds by up to 1.58\(\times\) and 1.82\(\times\) on average while consuming only 47\% and 31\% of the bandwidth, respectively, all with high inference accuracy.
Abstract（参考訳）: エッジコンピューティングの出現により、リアルタイムのインテリジェントなビデオ分析が可能になった。従来のモデルアーキテクチャ(例えば、CNN、RNNなど)に基づいて、帯域幅と計算消費を最小限に抑えるために、関心のないコンテンツをフィルタリングする様々な戦略を採用しているが、悪環境下では性能が劣っている。近年, 変換器をベースとした視覚基礎モデルは, 驚くほどの一般化能力により, 悪環境下での優れた性能を示した。しかし、それらは大量の計算能力を必要としており、リアルタイムのインテリジェントなビデオ分析における応用を制限している。本稿では、視覚変換器(ViT)のような視覚基盤モデルにも、ビデオ解析のための専用の加速度機構があることを見出した。そこで本研究では,ViTに基づくエッジ・ツー・エンドのビデオ推論高速化システムであるArenaを紹介する。ダウンストリームモデルにPatches-of-Interestをオフロードして供給するだけでトークンのプルーニングによって高速化できるViTの機能を活用します。さらに、異なるビデオに合わせた適応型キーフレーム推論切替アルゴリズムを設計し、現在の映像コンテンツに適応して精度と帯域幅を最適化する。広範にわたる実験により,Arenaは平均1.58\(\times\)と1.82\(\times\)の推論速度を向上し,それぞれ47\%と31\%の帯域幅しか消費していないことが明らかとなった。

関連論文リスト

Déjà Vu: Efficient Video-Language Query Engine with Learning-based Inter-Frame Computation Reuse [7.283352519499699]
本稿では、連続するフレーム間の計算を再利用することで、VTベースのビデオLMを高速化するビデオ言語クエリエンジンであるD'eja Vuを紹介する。コアとなるReuseViTは、ビデオLMタスク用に特別に設計された修正ViTモデルであり、フレーム間の再利用機会を検出することを学ぶ。 D'eja Vuは、2%のエラーバウンド内で最大2.64倍の埋め込み生成を加速し、大規模なビデオ解析のためのビデオLMの実用性を劇的に向上させることを示す。
論文参考訳（メタデータ） (2025-06-17T01:59:10Z)
Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers [22.349130691342687]
ビデオ拡散変換器 (vDiT) は, テキスト・ビデオ生成において顕著な進歩を遂げているが, その高い計算要求は, 実用的展開において大きな課題を呈している。本稿では,vDiTをベースとしたビデオ生成において,ほぼ最適設定を検索する自動フレームワークであるASTRAEAを紹介する。
論文参考訳（メタデータ） (2025-06-05T14:41:38Z)
AdaVid: Adaptive Video-Language Pretraining [25.893795920759572]
計算制約のあるエッジデバイス上で,効率的なビデオエンコーダを学習するためのフレームワークであるAdaVidを紹介する。 AdaVidは、利用可能なリソースに基づいて計算フットプリントを動的に適応できる効率的なビデオエンコーダを学習する。
論文参考訳（メタデータ） (2025-04-16T22:19:50Z)
Towards Real-Time Open-Vocabulary Video Instance Segmentation [88.04508795121681]
オープン語彙ビデオインスタンス分割(OV-VIS)をリアルタイムに実行するための新しい手法を提案する。 TROY-VISは2つの大規模OV-VISベンチマークで精度と速度の最良のトレードオフを達成する。これらの結果は,モバイルロボティクスや拡張現実といった動的環境におけるTROY-VISのリアルタイム応用の可能性を示している。
論文参考訳（メタデータ） (2024-12-05T18:53:13Z)
Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文参考訳（メタデータ） (2024-11-04T18:59:44Z)
Video Prediction Transformers without Recurrence or Convolution [65.93130697098658]
我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。本稿では,映像予測の文脈における3次元注意の包括的分析を行う。精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文参考訳（メタデータ） (2024-10-07T03:52:06Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文参考訳（メタデータ） (2022-05-06T18:17:19Z)
Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文参考訳（メタデータ） (2022-03-23T11:33:27Z)
Deformable VisTR: Spatio temporal deformable attention for video instance segmentation [79.76273774737555]
ビデオインスタンスセグメンテーション(VIS)タスクは、クリップ内のすべてのフレーム上でのオブジェクトインスタンスのセグメンテーション、分類、追跡を必要とする。近年、VisTRは最先端の性能を実証しつつ、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。本稿では,小さな鍵時間サンプリングポイントのみに対応する時間変形型アテンションモジュールであるDeformable VisTRを提案する。
論文参考訳（メタデータ） (2022-03-12T02:27:14Z)
Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文参考訳（メタデータ） (2021-12-02T18:59:02Z)
VidTr: Video Transformer Without Convolutions [32.710988574799735]
時間的映像分類のための分離アテンション付きビデオトランスフォーマー(VidTr)を導入する。 VidTrは、スタックされた注意を通して時間情報を集約し、より高い効率でパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2021-04-23T17:59:01Z)
Towards Unsupervised Fine-Tuning for Edge Video Analytics [1.1091582432763736]
自動モデル特殊化による余分な計算コストを伴わずにエッジモデルの精度を向上させる手法を提案する。その結果,本手法は,事前学習モデルの精度を平均21%向上できることがわかった。
論文参考訳（メタデータ） (2021-04-14T12:57:40Z)
ApproxDet: Content and Contention-Aware Approximate Object Detection for Mobiles [19.41234144545467]
本稿では,モバイル機器用適応型ビデオオブジェクト検出フレームワークであるApproxDetを紹介する。大規模なベンチマークビデオデータセット上でApproxDetを評価し,AdaScaleやYOLOv3と比較した。 ApproxDetは、幅広いコンテントやコンテンツの特徴に適応し、すべてのベースラインを誇張することができる。
論文参考訳（メタデータ） (2020-10-21T04:11:05Z)
Real-Time Video Inference on Edge Devices via Adaptive Model Streaming [9.101956442584251]
携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
論文参考訳（メタデータ） (2020-06-11T17:25:44Z)
Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文参考訳（メタデータ） (2020-04-02T02:46:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。