論文の概要: Semantic Flow for Fast and Accurate Scene Parsing
- arxiv url: http://arxiv.org/abs/2002.10120v3
- Date: Mon, 29 Mar 2021 08:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 04:22:00.408504
- Title: Semantic Flow for Fast and Accurate Scene Parsing
- Title(参考訳): 高速かつ正確なシーン解析のための意味フロー
- Authors: Xiangtai Li, Ansheng You, Zhen Zhu, Houlong Zhao, Maoke Yang, Kuiyuan
Yang, Yunhai Tong
- Abstract要約: フローアライメントモジュール(FAM)は、隣接するレベルの特徴マップ間のセマンティックフローを学習する。
Cityscapes、PASCAL Context、ADE20K、CamVidなど、いくつかの挑戦的なデータセットで実験が行われている。
私たちのネットワークは、26FPSのフレームレートで80.4%のmIoUをCityscapesで達成した初めてのネットワークです。
- 参考スコア(独自算出の注目度): 28.444273169423074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on designing effective method for fast and accurate
scene parsing. A common practice to improve the performance is to attain high
resolution feature maps with strong semantic representation. Two strategies are
widely used -- atrous convolutions and feature pyramid fusion, are either
computation intensive or ineffective. Inspired by the Optical Flow for motion
alignment between adjacent video frames, we propose a Flow Alignment Module
(FAM) to learn Semantic Flow between feature maps of adjacent levels, and
broadcast high-level features to high resolution features effectively and
efficiently. Furthermore, integrating our module to a common feature pyramid
structure exhibits superior performance over other real-time methods even on
light-weight backbone networks, such as ResNet-18. Extensive experiments are
conducted on several challenging datasets, including Cityscapes, PASCAL
Context, ADE20K and CamVid. Especially, our network is the first to achieve
80.4\% mIoU on Cityscapes with a frame rate of 26 FPS. The code is available at
\url{https://github.com/lxtGH/SFSegNets}.
- Abstract(参考訳): 本稿では,高速かつ高精度なシーン解析のための効果的な手法の設計に着目する。
パフォーマンスを改善する一般的な方法は、強力な意味表現を持つ高分解能特徴マップを実現することである。
atrous convolutionsとfeature pyramid fusionの2つの戦略は、計算集約的か非効率かのどちらかである。
近接する映像フレーム間の移動アライメントのためのオプティカルフローに着想を得て,隣接レベルの特徴マップ間の意味的流れを学習し,高レベル機能を効果的かつ効率的に高分解能機能にブロードキャストするフローアライメントモジュール(fam)を提案する。
さらに、モジュールを共通の特徴ピラミッド構造に統合すると、ResNet-18のような軽量バックボーンネットワークでも、他のリアルタイム手法よりも優れたパフォーマンスが得られる。
cityscapes、pascal context、ade20k、camvidなど、いくつかの挑戦的なデータセットで広範な実験が行われている。
特に,私たちのネットワークは,26FPSのフレームレートで80.4\% mIoUを達成した最初のネットワークである。
コードは \url{https://github.com/lxtgh/sfsegnets} で入手できる。
関連論文リスト
- Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - KORSAL: Key-point Detection based Online Real-Time Spatio-Temporal
Action Localization [0.9507070656654633]
ビデオにおけるリアルタイムおよびオンラインのアクションローカライゼーションは、非常に難しい問題である。
近年の試みでは、計算集約的な3D CNNアーキテクチャや、光流を伴う高冗長な2ストリームアーキテクチャを用いて実現されている。
本稿では,高速かつ効率的なキーポイントベースバウンディングボックス予測を用いて行動の空間的ローカライズを提案する。
我々のモデルは41.8FPSのフレームレートを実現しており、これは現代のリアルタイム手法よりも10.7%改善されている。
論文 参考訳(メタデータ) (2021-11-05T08:39:36Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Progressive Temporal Feature Alignment Network for Video Inpainting [51.26380898255555]
ビデオ畳み込みは、時間内「破損した地域」に可能な内容で埋めることを目指しています。
現在の方法は、注意、フローベースのワープ、あるいは3次元時間的畳み込みによってこの目標を達成する。
現在のフレームから抽出された特徴を、隣接するフレームから歪んだ特徴で段階的に強化する「プログレッシブ・テンポラリティ・アライメント・ネットワーク」を提案します。
論文 参考訳(メタデータ) (2021-04-08T04:50:33Z) - AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing [12.409365458889082]
AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し、グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNet は Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-10T08:38:29Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。