論文の概要: Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation
- arxiv url: http://arxiv.org/abs/2206.09604v1
- Date: Mon, 20 Jun 2022 07:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 14:07:29.963656
- Title: Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation
- Title(参考訳): リアルタイムビデオセグメンテーションのための歪み認識型ネットワークプルーニングと特徴再利用
- Authors: Hyunsu Rhee, Dongchan Min, Sunil Hwang, Bruno Andreis, Sung Ju Hwang
- Abstract要約: 本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
- 参考スコア(独自算出の注目度): 49.17930380106643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time video segmentation is a crucial task for many real-world
applications such as autonomous driving and robot control. Since
state-of-the-art semantic segmentation models are often too heavy for real-time
applications despite their impressive performance, researchers have proposed
lightweight architectures with speed-accuracy trade-offs, achieving real-time
speed at the expense of reduced accuracy. In this paper, we propose a novel
framework to speed up any architecture with skip-connections for real-time
vision tasks by exploiting the temporal locality in videos. Specifically, at
the arrival of each frame, we transform the features from the previous frame to
reuse them at specific spatial bins. We then perform partial computation of the
backbone network on the regions of the current frame that captures temporal
differences between the current and previous frame. This is done by dynamically
dropping out residual blocks using a gating mechanism which decides which
blocks to drop based on inter-frame distortion. We validate our
Spatial-Temporal Mask Generator (STMG) on video semantic segmentation
benchmarks with multiple backbone networks, and show that our method largely
speeds up inference with minimal loss of accuracy.
- Abstract(参考訳): リアルタイムビデオセグメンテーションは、自動運転やロボット制御など、多くの現実世界のアプリケーションにとって重要なタスクである。
最先端セマンティックセグメンテーションモデルは、目覚ましい性能にもかかわらずリアルタイムアプリケーションには重すぎることが多いため、研究者は、精度の低下を犠牲にしてリアルタイムのスピードを達成するために、高速なトレードオフを持つ軽量アーキテクチャを提案した。
本稿では,ビデオの時間的局所性を利用して,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を実現する新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
これは、フレーム間の歪みに基づいてどのブロックをドロップするかを決定するゲーティング機構を使用して、残余ブロックを動的にドロップアウトする。
我々は,複数のバックボーンネットワークを用いたビデオ意味セマンティクスセグメンテーションベンチマークにおいて,空間-時空間マスク生成器(stmg)の有効性を検証し,精度を最小に抑え,推定を高速化することを示す。
関連論文リスト
- Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - Borrowing from yourself: Faster future video segmentation with partial
channel update [0.0]
本稿では,時間依存型チャネルマスキングを用いた畳み込み層を用いて,将来的な映像セグメンテーション予測の課題に取り組むことを提案する。
このテクニックは、各タイミングでフィーチャーマップの選ばれたサブセットだけを更新し、同時に計算とレイテンシを削減します。
この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対する利点を実験的に検証する。
論文 参考訳(メタデータ) (2022-02-11T16:37:53Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。