Fugu-MT 論文翻訳(概要): Tamed Warping Network for High-Resolution Semantic Video Segmentation

論文の概要: Tamed Warping Network for High-Resolution Semantic Video Segmentation

arxiv url: http://arxiv.org/abs/2005.01344v4
Date: Tue, 11 Jul 2023 08:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-12 19:43:12.948210
Title: Tamed Warping Network for High-Resolution Semantic Video Segmentation
Title（参考訳）: 高分解能セマンティックビデオセグメンテーションのためのタメドワーピングネットワーク
Authors: Songyuan Li, Junyi Feng, and Xi Li
Abstract要約: 我々はキーフレーム以外のCNNを構築し、現在の空間的詳細と歪んだコンテキスト特徴を融合させる。特徴の融合に基づいて、私たちのContext Feature Rectification(CFR)モジュールは、フレームごとのモデルの違いを学習し、歪んだ特徴を修正する。我々のResidual-Guided Attention(RGA)モジュールは圧縮された領域の残余マップを利用して、CRFがエラーを起こしやすい領域にフォーカスするのを助ける。
参考スコア（独自算出の注目度）: 14.553335231691877
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent approaches for fast semantic video segmentation have reduced redundancy by warping feature maps across adjacent frames, greatly speeding up the inference phase. However, the accuracy drops seriously owing to the errors incurred by warping. In this paper, we propose a novel framework and design a simple and effective correction stage after warping. Specifically, we build a non-key-frame CNN, fusing warped context features with current spatial details. Based on the feature fusion, our Context Feature Rectification~(CFR) module learns the model's difference from a per-frame model to correct the warped features. Furthermore, our Residual-Guided Attention~(RGA) module utilizes the residual maps in the compressed domain to help CRF focus on error-prone regions. Results on Cityscapes show that the accuracy significantly increases from $67.3\%$ to $71.6\%$, and the speed edges down from $65.5$ FPS to $61.8$ FPS at a resolution of $1024\times 2048$. For non-rigid categories, e.g., ``human'' and ``object'', the improvements are even higher than 18 percentage points.
Abstract（参考訳）: 最近の高速セマンティックビデオセグメンテーションのアプローチでは、隣接するフレームに特徴マップをゆがめることで冗長性が低下し、推論フェーズが大幅にスピードアップしている。しかし、ワープによる誤差のため、精度は著しく低下する。本稿では,新しい枠組みを提案し,ワーピング後の簡易かつ効果的な補正段階を設計する。具体的には、非キーフレームCNNを構築し、現在の空間的詳細と共に歪んだコンテキスト特徴を融合させる。特徴の融合に基づいて、私たちのContext Feature Rectification~(CFR)モジュールは、フレームごとのモデルの違いを学習し、歪んだ特徴を修正する。さらに、我々のResidual-Guided Attention~(RGA)モジュールは圧縮された領域の残留マップを利用して、CRFがエラーが発生しやすい領域にフォーカスするのを助ける。 Cityscapesの結果、精度は67.3\%から71.6\%に大幅に向上し、スピードエッジは65.5$ FPSから61.8$ FPSへ低下し、解像度は1024\times 2048$となった。例えば ``human'' や ``object'' といった非厳なカテゴリでは、改善点は18パーセンテージ以上である。

関連論文リスト

Rapid Salient Object Detection with Difference Convolutional Neural Networks [49.838283141381716]
本稿では,資源制約のあるデバイスにSODをリアルタイムに展開する上での課題について述べる。 SODにおける従来の知恵と現代のCNNの表現力を組み合わせたネットワーク設計を提案する。
論文参考訳（メタデータ） (2025-07-01T20:41:05Z)
PyNeRF: Pyramidal Neural Radiance Fields [51.25406129834537]
本研究では,異なる空間グリッド解像度でモデルヘッドを訓練することにより,グリッドモデルへの簡単な修正を提案する。レンダリング時には、単に粗いグリッドを使用して、より大きなボリュームをカバーするサンプルをレンダリングします。 Mip-NeRFと比較して、60倍高速なトレーニングをしながらエラー率を20%削減する。
論文参考訳（メタデータ） (2023-11-30T23:52:46Z)
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文参考訳（メタデータ） (2023-09-29T13:09:40Z)
Global Context Aggregation Network for Lightweight Saliency Detection of Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。 3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文参考訳（メタデータ） (2023-09-22T06:19:11Z)
Recurrence without Recurrence: Stable Video Landmark Detection with Deep Equilibrium Models [96.76758318732308]
本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-04-02T19:08:02Z)
Stage-Aware Feature Alignment Network for Real-Time Semantic Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文参考訳（メタデータ） (2022-03-08T11:46:41Z)
PlaneSegNet: Fast and Robust Plane Estimation Using a Single-stage Instance Segmentation CNN [12.251947429149796]
本稿では,単一のrgb画像から分割平面領域を推定する,リアルタイム深層ニューラルネットワークアーキテクチャを提案する。本手法は2段階法に比べてフレームレートが著しく高く,セグメンテーション精度も同等である。
論文参考訳（メタデータ） (2021-03-29T08:53:05Z)
Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes [0.23090185577016442]
道路シーンのリアルタイムセマンティックセグメンテーションのための新しいディープデュアルリゾリューションネットワーク(DDRNets)を提案する。提案手法は,Cityscapes と CamVid 両方のデータセットにおける精度と速度の新たなトレードオフを実現する。
論文参考訳（メタデータ） (2021-01-15T12:56:18Z)
A Backbone Replaceable Fine-tuning Framework for Stable Face Alignment [21.696696531924374]
そこで本稿では,時空間情報を利用して不正確なランドマークを抑えるジッタロス関数を提案する。提案手法は安定性評価の指標を40%以上改善する。モデル全体をリトレーニングすることなく、素早く顔画像のランドマーク検出器を、ビデオのためのより良いパフォーマンスの検出器に変換することができる。
論文参考訳（メタデータ） (2020-10-19T13:40:39Z)
Recurrent Feature Reasoning for Image Inpainting [110.24760191732905]
Recurrent Feature Reasoning (RFR) は主にプラグアンドプレイの Recurrent Feature Reasoning モジュールと Knowledge Consistent Attention (KCA) モジュールで構築されている。 RFRモジュールは、畳み込み特徴写像の穴の境界を反復的に推論し、さらに推論の手がかりとして利用する。 RFRの特徴マップ内の離れた場所からの情報を取得するため、我々はさらにKCAを開発し、RFRに組み込む。
論文参考訳（メタデータ） (2020-08-09T14:40:04Z)
Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文参考訳（メタデータ） (2020-07-07T22:37:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。