論文の概要: How to Train Your Dragon: Tamed Warping Network for Semantic Video
Segmentation
- arxiv url: http://arxiv.org/abs/2005.01344v3
- Date: Mon, 6 Jun 2022 08:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 01:04:38.817859
- Title: How to Train Your Dragon: Tamed Warping Network for Semantic Video
Segmentation
- Title(参考訳): ドラゴンの訓練方法:セマンティックビデオセグメンテーションのための為のワープネットワーク
- Authors: Junyi Feng, Songyuan Li, Yifeng Chen, Fuxian Huang, Jiabao Cui, and Xi
Li
- Abstract要約: 我々は、ワープ直後の簡易かつ効果的な修正段階を導入し、TWNetというフレームワークを構築することを提案する。
補正により、mIoUの精度は67.3%から71.6%に向上し、スピードエッジは65.5 FPSから61.8 FPSに低下した。
人間」や「対象」のような厳格でないカテゴリーでは、IoUの改善は18パーセント以上である。
- 参考スコア(独自算出の注目度): 16.55163143901687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time semantic segmentation on high-resolution videos is challenging due
to the strict requirements of speed. Recent approaches have utilized the
inter-frame continuity to reduce redundant computation by warping the feature
maps across adjacent frames, greatly speeding up the inference phase. However,
their accuracy drops significantly owing to the imprecise motion estimation and
error accumulation. In this paper, we propose to introduce a simple and
effective correction stage right after the warping stage to form a framework
named Tamed Warping Network (TWNet), aiming to improve the accuracy and
robustness of warping-based models. The experimental results on the Cityscapes
dataset show that with the correction, the accuracy (mIoU) significantly
increases from 67.3% to 71.6%, and the speed edges down from 65.5 FPS to 61.8
FPS. For non-rigid categories such as "human" and "object", the improvements of
IoU are even higher than 18 percentage points.
- Abstract(参考訳): 高精細度ビデオのリアルタイムセマンティクスセグメンテーションは,速度の厳しい要件から困難である。
最近のアプローチでは、フレーム間の連続性を利用して、隣接するフレームにまたがる特徴マップをゆがめて冗長な計算を削減し、推論フェーズを大幅に高速化している。
しかし,不正確な動き推定と誤差蓄積により,精度は著しく低下する。
本稿では,warping 型モデルの精度と頑健性を向上させるため,tamed warping network (twnet) というフレームワークを構築するため,warping ステージ直後の簡易かつ効果的な修正ステージを導入することを提案する。
Cityscapesデータセットの実験結果によると、補正によってmIoUの精度は67.3%から71.6%に向上し、スピードエッジは65.5 FPSから61.8 FPSに低下した。
人間」や「対象」のような厳格でないカテゴリーでは、IoUの改善は18パーセント以上である。
関連論文リスト
- PyNeRF: Pyramidal Neural Radiance Fields [51.25406129834537]
本研究では,異なる空間グリッド解像度でモデルヘッドを訓練することにより,グリッドモデルへの簡単な修正を提案する。
レンダリング時には、単に粗いグリッドを使用して、より大きなボリュームをカバーするサンプルをレンダリングします。
Mip-NeRFと比較して、60倍高速なトレーニングをしながらエラー率を20%削減する。
論文 参考訳(メタデータ) (2023-11-30T23:52:46Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models [96.76758318732308]
本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-02T19:08:02Z) - PlaneSegNet: Fast and Robust Plane Estimation Using a Single-stage
Instance Segmentation CNN [12.251947429149796]
本稿では,単一のrgb画像から分割平面領域を推定する,リアルタイム深層ニューラルネットワークアーキテクチャを提案する。
本手法は2段階法に比べてフレームレートが著しく高く,セグメンテーション精度も同等である。
論文 参考訳(メタデータ) (2021-03-29T08:53:05Z) - Deep Dual-resolution Networks for Real-time and Accurate Semantic
Segmentation of Road Scenes [0.23090185577016442]
道路シーンのリアルタイムセマンティックセグメンテーションのための新しいディープデュアルリゾリューションネットワーク(DDRNets)を提案する。
提案手法は,Cityscapes と CamVid 両方のデータセットにおける精度と速度の新たなトレードオフを実現する。
論文 参考訳(メタデータ) (2021-01-15T12:56:18Z) - A Backbone Replaceable Fine-tuning Framework for Stable Face Alignment [21.696696531924374]
そこで本稿では,時空間情報を利用して不正確なランドマークを抑えるジッタロス関数を提案する。
提案手法は安定性評価の指標を40%以上改善する。
モデル全体をリトレーニングすることなく、素早く顔画像のランドマーク検出器を、ビデオのためのより良いパフォーマンスの検出器に変換することができる。
論文 参考訳(メタデータ) (2020-10-19T13:40:39Z) - Recurrent Feature Reasoning for Image Inpainting [110.24760191732905]
Recurrent Feature Reasoning (RFR) は主にプラグアンドプレイの Recurrent Feature Reasoning モジュールと Knowledge Consistent Attention (KCA) モジュールで構築されている。
RFRモジュールは、畳み込み特徴写像の穴の境界を反復的に推論し、さらに推論の手がかりとして利用する。
RFRの特徴マップ内の離れた場所からの情報を取得するため、我々はさらにKCAを開発し、RFRに組み込む。
論文 参考訳(メタデータ) (2020-08-09T14:40:04Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。