論文の概要: BlockCopy: High-Resolution Video Processing with Block-Sparse Feature
Propagation and Online Policies
- arxiv url: http://arxiv.org/abs/2108.09376v1
- Date: Fri, 20 Aug 2021 21:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:49:48.056555
- Title: BlockCopy: High-Resolution Video Processing with Block-Sparse Feature
Propagation and Online Policies
- Title(参考訳): BlockCopy: ブロックスパース機能プロパゲーションとオンラインポリシによる高解像度ビデオ処理
- Authors: Thomas Verelst, Tinne Tuytelaars
- Abstract要約: BlockCopyは、事前訓練されたフレームベースのCNNを高速化して、より効率的にビデオを処理するスキームである。
軽量ポリシーネットワークは、画像内の重要領域を決定し、選択された領域のみに操作を適用する。
非選択領域の特徴は、単に前のフレームからコピーされ、計算数とレイテンシーが減少する。
- 参考スコア(独自算出の注目度): 57.62315799929681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose BlockCopy, a scheme that accelerates pretrained
frame-based CNNs to process video more efficiently, compared to standard
frame-by-frame processing. To this end, a lightweight policy network determines
important regions in an image, and operations are applied on selected regions
only, using custom block-sparse convolutions. Features of non-selected regions
are simply copied from the preceding frame, reducing the number of computations
and latency. The execution policy is trained using reinforcement learning in an
online fashion without requiring ground truth annotations. Our universal
framework is demonstrated on dense prediction tasks such as pedestrian
detection, instance segmentation and semantic segmentation, using both state of
the art (Center and Scale Predictor, MGAN, SwiftNet) and standard baseline
networks (Mask-RCNN, DeepLabV3+). BlockCopy achieves significant FLOPS savings
and inference speedup with minimal impact on accuracy.
- Abstract(参考訳): 本稿では,プリトレーニングされたフレームベースのcnnを高速化し,標準フレーム毎フレーム処理と比較してより効率的に映像処理を行うblockcopyを提案する。
この目的のために、軽量ポリシーネットワークは、画像内の重要な領域を決定し、カスタムブロックスパース畳み込みを用いて、選択された領域のみに操作を適用する。
非選択領域の特徴は、単に前のフレームからコピーされ、計算数とレイテンシーが減少する。
実行方針は、真理アノテーションを必要とせず、オンラインで強化学習を用いて訓練される。
提案手法は,最先端のart(center and scale predictor, mgan, swiftnet)と標準ベースラインネットワーク(mask-rcnn, deeplabv3+)の両方を用いて,歩行者検出,インスタンスセグメンテーション,セマンティクスセグメンテーションなどの密集した予測タスクについて実証する。
BlockCopyはFLOPSの大幅な削減と推論の高速化を実現している。
関連論文リスト
- Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Boosting Video Object Segmentation via Space-time Correspondence
Learning [48.8275459383339]
ビデオオブジェクトセグメンテーション(VOS)の現在のソリューションは、通常マッチングベースのレシエーションに従う。
そこで我々は,ロバストな対応マッチングを明示的に奨励することにより,マッチングベースのVOSソリューションを向上する,対応対応型トレーニングフレームワークを考案した。
提案アルゴリズムは, 広く使用されている4つのベンチマークに対して, 確固たる性能向上をもたらす。
論文 参考訳(メタデータ) (2023-04-13T01:34:44Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection [31.31508043234419]
イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:27:48Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Multi-Task Network Pruning and Embedded Optimization for Real-time
Deployment in ADAS [0.0]
カメラベースのディープラーニングアルゴリズムは、自動運転システムにおける認識にますます必要である。
自動車業界からの制約は、限られた計算リソースで組み込みシステムを課すことでCNNの展開に挑戦します。
商用プロトタイププラットフォーム上で,このような条件下でマルチタスクCNNネットワークを埋め込む手法を提案する。
論文 参考訳(メタデータ) (2021-01-19T19:29:38Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。