論文の概要: Skip-Convolutions for Efficient Video Processing
- arxiv url: http://arxiv.org/abs/2104.11487v1
- Date: Fri, 23 Apr 2021 09:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 18:04:07.609041
- Title: Skip-Convolutions for Efficient Video Processing
- Title(参考訳): 効率的なビデオ処理のためのスキップ畳み込み
- Authors: Amirhossein Habibian, Davide Abati, Taco S. Cohen, Babak Ehteshami
Bejnordi
- Abstract要約: Skip-Convolutionsはビデオストリームにおける大量の冗長性を活用し、計算を節約する。
私たちは、EfficientDetとHRNetという2つの最先端アーキテクチャで、すべての畳み込みをSkip-Convolutionsで置き換えます。
2つの異なるタスクに対して34倍の係数で計算コストを一貫して削減します。
- 参考スコア(独自算出の注目度): 21.823332885657784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Skip-Convolutions to leverage the large amount of redundancies in
video streams and save computations. Each video is represented as a series of
changes across frames and network activations, denoted as residuals. We
reformulate standard convolution to be efficiently computed on residual frames:
each layer is coupled with a binary gate deciding whether a residual is
important to the model prediction,~\eg foreground regions, or it can be safely
skipped, e.g. background regions. These gates can either be implemented as an
efficient network trained jointly with convolution kernels, or can simply skip
the residuals based on their magnitude. Gating functions can also incorporate
block-wise sparsity structures, as required for efficient implementation on
hardware platforms. By replacing all convolutions with Skip-Convolutions in two
state-of-the-art architectures, namely EfficientDet and HRNet, we reduce their
computational cost consistently by a factor of 3~4x for two different tasks,
without any accuracy drop. Extensive comparisons with existing model
compression, as well as image and video efficiency methods demonstrate that
Skip-Convolutions set a new state-of-the-art by effectively exploiting the
temporal redundancies in videos.
- Abstract(参考訳): 本稿では,ビデオストリームの冗長性を活用し,計算を省くためのスキップ畳み込みを提案する。
各ビデオは、フレームとネットワークアクティベーションの一連の変更として表現され、残余として表現される。
各層はモデル予測に残差が重要であるかどうかを判定するバイナリゲートと結合し、例えば、前景領域を安全にスキップすることができる。
背景地域。
これらのゲートは、畳み込みカーネルと共同で訓練された効率的なネットワークとして実装するか、単にその大きさに基づいて残差をスキップすることができる。
ゲーティング関数はハードウェアプラットフォーム上での効率的な実装に必要なブロックワイドの空間構造を組み込むこともできる。
すべての畳み込みを2つの最先端アーキテクチャ、すなわちEfficientDetとHRNetのスキップ畳み込みに置き換えることで、計算コストを2つの異なるタスクに対して3~4倍に抑えることができる。
既存のモデル圧縮と画像とビデオの効率性を比較して、Skip-Convolutionsがビデオの時間的冗長性を効果的に活用することによって、新しい最先端技術を確立したことを示す。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Signed Binarization: Unlocking Efficiency Through Repetition-Sparsity
Trade-Off [2.6144163646666945]
本稿では,反復スパーシティートレードオフの概念を導入し,推論時の計算効率を説明する。
我々は,このトレードオフに対応するために,ハードウェア・ソフトウェアシステム,量子化関数,表現学習技術を統合した統合協調設計フレームワークであるSigned Binarizationを提案する。
提案手法は,実ハードウェア上で26%の高速化を実現し,エネルギー効率を2倍にし,ResNet 18の2進法に比べて密度を2.8倍削減する。
論文 参考訳(メタデータ) (2023-12-04T02:33:53Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - TVConv: Efficient Translation Variant Convolution for Layout-aware
Visual Processing [10.996162201540695]
レイアウト認識型視覚処理のための効率的な翻訳変種畳み込み(TVConv)を開発した。
TVConvは畳み込みの効率を大幅に改善し、様々なネットワークアーキテクチャに簡単に接続できる。
論文 参考訳(メタデータ) (2022-03-20T08:29:06Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - VA-RED$^2$: Video Adaptive Redundancy Reduction [64.75692128294175]
我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
論文 参考訳(メタデータ) (2021-02-15T22:57:52Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。