論文の概要: Tamed Warping Network for High-Resolution Semantic Video Segmentation
- arxiv url: http://arxiv.org/abs/2005.01344v4
- Date: Tue, 11 Jul 2023 08:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 19:43:12.948210
- Title: Tamed Warping Network for High-Resolution Semantic Video Segmentation
- Title(参考訳): 高分解能セマンティックビデオセグメンテーションのためのタメドワーピングネットワーク
- Authors: Songyuan Li, Junyi Feng, and Xi Li
- Abstract要約: 我々はキーフレーム以外のCNNを構築し、現在の空間的詳細と歪んだコンテキスト特徴を融合させる。
特徴の融合に基づいて、私たちのContext Feature Rectification(CFR)モジュールは、フレームごとのモデルの違いを学習し、歪んだ特徴を修正する。
我々のResidual-Guided Attention(RGA)モジュールは圧縮された領域の残余マップを利用して、CRFがエラーを起こしやすい領域にフォーカスするのを助ける。
- 参考スコア(独自算出の注目度): 14.553335231691877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches for fast semantic video segmentation have reduced
redundancy by warping feature maps across adjacent frames, greatly speeding up
the inference phase. However, the accuracy drops seriously owing to the errors
incurred by warping. In this paper, we propose a novel framework and design a
simple and effective correction stage after warping. Specifically, we build a
non-key-frame CNN, fusing warped context features with current spatial details.
Based on the feature fusion, our Context Feature Rectification~(CFR) module
learns the model's difference from a per-frame model to correct the warped
features. Furthermore, our Residual-Guided Attention~(RGA) module utilizes the
residual maps in the compressed domain to help CRF focus on error-prone
regions. Results on Cityscapes show that the accuracy significantly increases
from $67.3\%$ to $71.6\%$, and the speed edges down from $65.5$ FPS to $61.8$
FPS at a resolution of $1024\times 2048$. For non-rigid categories, e.g.,
``human'' and ``object'', the improvements are even higher than 18 percentage
points.
- Abstract(参考訳): 最近の高速セマンティックビデオセグメンテーションのアプローチでは、隣接するフレームに特徴マップをゆがめることで冗長性が低下し、推論フェーズが大幅にスピードアップしている。
しかし、ワープによる誤差のため、精度は著しく低下する。
本稿では,新しい枠組みを提案し,ワーピング後の簡易かつ効果的な補正段階を設計する。
具体的には、非キーフレームCNNを構築し、現在の空間的詳細と共に歪んだコンテキスト特徴を融合させる。
特徴の融合に基づいて、私たちのContext Feature Rectification~(CFR)モジュールは、フレームごとのモデルの違いを学習し、歪んだ特徴を修正する。
さらに、我々のResidual-Guided Attention~(RGA)モジュールは圧縮された領域の残留マップを利用して、CRFがエラーが発生しやすい領域にフォーカスするのを助ける。
Cityscapesの結果、精度は67.3\%から71.6\%に大幅に向上し、スピードエッジは65.5$ FPSから61.8$ FPSへ低下し、解像度は1024\times 2048$となった。
例えば ``human'' や ``object'' といった非厳なカテゴリでは、改善点は18パーセンテージ以上である。
関連論文リスト
- PyNeRF: Pyramidal Neural Radiance Fields [51.25406129834537]
本研究では,異なる空間グリッド解像度でモデルヘッドを訓練することにより,グリッドモデルへの簡単な修正を提案する。
レンダリング時には、単に粗いグリッドを使用して、より大きなボリュームをカバーするサンプルをレンダリングします。
Mip-NeRFと比較して、60倍高速なトレーニングをしながらエラー率を20%削減する。
論文 参考訳(メタデータ) (2023-11-30T23:52:46Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models [96.76758318732308]
本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-02T19:08:02Z) - PlaneSegNet: Fast and Robust Plane Estimation Using a Single-stage
Instance Segmentation CNN [12.251947429149796]
本稿では,単一のrgb画像から分割平面領域を推定する,リアルタイム深層ニューラルネットワークアーキテクチャを提案する。
本手法は2段階法に比べてフレームレートが著しく高く,セグメンテーション精度も同等である。
論文 参考訳(メタデータ) (2021-03-29T08:53:05Z) - Deep Dual-resolution Networks for Real-time and Accurate Semantic
Segmentation of Road Scenes [0.23090185577016442]
道路シーンのリアルタイムセマンティックセグメンテーションのための新しいディープデュアルリゾリューションネットワーク(DDRNets)を提案する。
提案手法は,Cityscapes と CamVid 両方のデータセットにおける精度と速度の新たなトレードオフを実現する。
論文 参考訳(メタデータ) (2021-01-15T12:56:18Z) - A Backbone Replaceable Fine-tuning Framework for Stable Face Alignment [21.696696531924374]
そこで本稿では,時空間情報を利用して不正確なランドマークを抑えるジッタロス関数を提案する。
提案手法は安定性評価の指標を40%以上改善する。
モデル全体をリトレーニングすることなく、素早く顔画像のランドマーク検出器を、ビデオのためのより良いパフォーマンスの検出器に変換することができる。
論文 参考訳(メタデータ) (2020-10-19T13:40:39Z) - Recurrent Feature Reasoning for Image Inpainting [110.24760191732905]
Recurrent Feature Reasoning (RFR) は主にプラグアンドプレイの Recurrent Feature Reasoning モジュールと Knowledge Consistent Attention (KCA) モジュールで構築されている。
RFRモジュールは、畳み込み特徴写像の穴の境界を反復的に推論し、さらに推論の手がかりとして利用する。
RFRの特徴マップ内の離れた場所からの情報を取得するため、我々はさらにKCAを開発し、RFRに組み込む。
論文 参考訳(メタデータ) (2020-08-09T14:40:04Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。