論文の概要: Temporally Distributed Networks for Fast Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2004.01800v2
- Date: Tue, 7 Apr 2020 00:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:30:01.065382
- Title: Temporally Distributed Networks for Fast Video Semantic Segmentation
- Title(参考訳): 高速ビデオセマンティックセグメンテーションのための時間分散ネットワーク
- Authors: Ping Hu, Fabian Caba Heilbron, Oliver Wang, Zhe Lin, Stan Sclaroff and
Federico Perazzi
- Abstract要約: TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
- 参考スコア(独自算出の注目度): 64.5330491940425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TDNet, a temporally distributed network designed for fast and
accurate video semantic segmentation. We observe that features extracted from a
certain high-level layer of a deep CNN can be approximated by composing
features extracted from several shallower sub-networks. Leveraging the inherent
temporal continuity in videos, we distribute these sub-networks over sequential
frames. Therefore, at each time step, we only need to perform a lightweight
computation to extract a sub-features group from a single sub-network. The full
features used for segmentation are then recomposed by application of a novel
attention propagation module that compensates for geometry deformation between
frames. A grouped knowledge distillation loss is also introduced to further
improve the representation power at both full and sub-feature levels.
Experiments on Cityscapes, CamVid, and NYUD-v2 demonstrate that our method
achieves state-of-the-art accuracy with significantly faster speed and lower
latency.
- Abstract(参考訳): 本稿では,高速かつ高精度なビデオセマンティックセグメンテーションのための時間分散ネットワークTDNetを提案する。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似できることを示した。
ビデオの時間的連続性を活用して、これらのサブネットワークをシーケンシャルなフレーム上に分散する。
したがって、各ステップにおいて、単一のサブネットワークからサブ機能グループを抽出する軽量な計算のみを実行する必要がある。
セグメンテーションに使われる完全な機能は、フレーム間の幾何学的変形を補償する新しい注意伝播モジュールの適用によって再構成される。
グループ化された知識蒸留損失も導入され、フルおよびサブ機能レベルの表現力をさらに向上する。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - Deep Multi-Branch Aggregation Network for Real-Time Semantic
Segmentation in Street Scenes [32.54045305607654]
多くの最先端のリアルタイムセマンティックセグメンテーション手法は、空間的詳細や文脈情報を犠牲にして高速な推論を行う傾向にある。
街路シーンにおけるリアルタイムセマンティックセグメンテーションを実現するために,エンコーダ・デコーダ構造に基づく新しいディープ・マルチブランチ・アグリゲーション・ネットワーク(DMA-Net)を提案する。
提案したDMA-Netは,1個のNVIDIA GTX 1080Ti GPUのみを用いて,それぞれ46.7 FPSと119.8 FPSの予測速度で,平均77.0%,平均73.6%のUnion(mIoU)が得られる。
論文 参考訳(メタデータ) (2022-03-08T12:07:32Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。