論文の概要: Representation Recycling for Streaming Video Analysis
- arxiv url: http://arxiv.org/abs/2204.13492v4
- Date: Sat, 6 Jan 2024 23:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:46:03.580765
- Title: Representation Recycling for Streaming Video Analysis
- Title(参考訳): ストリーミング映像解析のための表現リサイクル
- Authors: Can Ufuk Ertenli, Ramazan Gokberk Cinbis, Emre Akbas
- Abstract要約: StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
- 参考スコア(独自算出の注目度): 19.068248496174903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present StreamDEQ, a method that aims to infer frame-wise representations
on videos with minimal per-frame computation. Conventional deep networks do
feature extraction from scratch at each frame in the absence of ad-hoc
solutions. We instead aim to build streaming recognition models that can
natively exploit temporal smoothness between consecutive video frames. We
observe that the recently emerging implicit layer models provide a convenient
foundation to construct such models, as they define representations as the
fixed-points of shallow networks, which need to be estimated using iterative
methods. Our main insight is to distribute the inference iterations over the
temporal axis by using the most recent representation as a starting point at
each frame. This scheme effectively recycles the recent inference computations
and greatly reduces the needed processing time. Through extensive experimental
analysis, we show that StreamDEQ is able to recover near-optimal
representations in a few frames' time and maintain an up-to-date representation
throughout the video duration. Our experiments on video semantic segmentation,
video object detection, and human pose estimation in videos show that StreamDEQ
achieves on-par accuracy with the baseline while being more than 2-4x faster.
- Abstract(参考訳): 本稿では,最小フレーム当たりの計算量で動画のフレームワイズ表現を推定することを目的としたStreamDEQを提案する。
従来のディープネットワークは、アドホックなソリューションがなければ、各フレームのスクラッチから特徴抽出を行う。
代わりに、連続するビデオフレーム間の時間的滑らかさをネイティブに活用できるストリーミング認識モデルの構築を目指している。
最近出現した暗黙的層モデルは、表現を浅層ネットワークの固定点として定義し、反復的手法で推定する必要があるため、そのようなモデルを構築するための便利な基盤を提供する。
我々の主な洞察は、最新の表現を各フレームの開始点として利用することで、時間軸上の推論反復を分散することである。
このスキームは、最近の推論計算を効果的にリサイクルし、必要な処理時間を大幅に削減する。
広範にわたる実験分析により,StreamDEQは数フレームの時間内にほぼ最適表現を復元し,ビデオ期間を通じて最新の表現を維持可能であることを示す。
ビデオのセマンティックセグメンテーション, ビデオオブジェクト検出, 人間のポーズ推定実験により, StreamDEQは2~4倍高速で, ベースラインでのオンパー精度を実現していることがわかった。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - DynPoint: Dynamic Neural Point For View Synthesis [43.27110788061267]
我々は、制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムであるDynPointを提案する。
DynPointは、情報集約を実現するために、隣接するフレーム間の明示的な3D対応を予測することに集中している。
本手法は,ビデオコンテンツの正規表現を学習することなく,長時間の動画処理において強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-29T12:55:53Z) - ResQ: Residual Quantization for Video Perception [18.491197847596283]
本稿では,Residual Quantization(Residual Quantization)と呼ばれるビデオネットワークのための新しい量子化手法を提案する。
ビデオの変化量に比例してビット幅を動的に調整するために、我々のモデルを拡張します。
論文 参考訳(メタデータ) (2023-08-18T12:41:10Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。