論文の概要: PIDNet: A Real-time Semantic Segmentation Network Inspired from PID
Controller
- arxiv url: http://arxiv.org/abs/2206.02066v1
- Date: Sat, 4 Jun 2022 23:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 14:07:06.867383
- Title: PIDNet: A Real-time Semantic Segmentation Network Inspired from PID
Controller
- Title(参考訳): PIDNet:PIDコントローラからヒントを得たリアルタイムセマンティックセマンティックセグメンテーションネットワーク
- Authors: Jiacong Xu, Zixiang Xiong and Shankar P. Bhattacharyya
- Abstract要約: 2分岐ネットワークアーキテクチャは、リアルタイムセマンティックセグメンテーションタスクの効率性と有効性を示している。
CNNとPID(Proportional-Integral-Derivative)コントローラの接続をブリッジする。
我々は3分岐ネットワークアーキテクチャを提案する。 PIDNetは3つの分岐を持ち、詳細、文脈、境界情報を解析する。
- 参考スコア(独自算出の注目度): 6.0653144230649865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-branch network architecture has shown its efficiency and effectiveness
for real-time semantic segmentation tasks. However, direct fusion of low-level
details and high-level semantics will lead to a phenomenon that the detailed
features are easily overwhelmed by surrounding contextual information, namely
overshoot in this paper, which limits the improvement of the accuracy of
existed two-branch models. In this paper, we bridge a connection between
Convolutional Neural Network (CNN) and Proportional-Integral-Derivative (PID)
controller and reveal that the two-branch network is nothing but a
Proportional-Integral (PI) controller, which inherently suffers from the
similar overshoot issue. To alleviate this issue, we propose a novel
three-branch network architecture: PIDNet, which possesses three branches to
parse the detailed, context and boundary information (derivative of semantics),
respectively, and employs boundary attention to guide the fusion of detailed
and context branches in final stage. The family of PIDNets achieve the best
trade-off between inference speed and accuracy and their test accuracy
surpasses all the existed models with similar inference speed on Cityscapes,
CamVid and COCO-Stuff datasets. Especially, PIDNet-S achieves 78.6% mIOU with
inference speed of 93.2 FPS on Cityscapes test set and 81.6% mIOU with speed of
153.7 FPS on CamVid test set.
- Abstract(参考訳): 2分岐ネットワークアーキテクチャは、リアルタイムセマンティクスセグメンテーションタスクの効率性と有効性を示している。
しかし、低レベル詳細と高レベルセマンティクスの直接的融合は、その詳細特徴が周囲の文脈情報、すなわち、既存の2分岐モデルの精度向上を制限したオーバーシュートによって容易に圧倒される現象につながる。
本稿では、畳み込みニューラルネットワーク(CNN)とPID(Proportional-Integral-Derivative)コントローラの接続を橋渡しし、この2ブランチネットワークが本質的に同様のオーバーシュート問題に悩むProportional-Integral(PI)コントローラにすぎないことを明らかにする。
この問題を緩和するため,我々は3つの分岐ネットワークアーキテクチャpidnetを提案する。pidnetは,詳細,文脈,境界情報を解析する3つのブランチ(セマンティクスの導出)を持ち,最終段階における詳細分枝とコンテキスト分枝の融合を導くために境界注意を利用する。
pidnetsファミリは、推論速度と精度、テスト精度のトレードオフが、cityscapes、camvid、coco-stuffデータセットに類似した推論速度を持つ既存のモデルをすべて上回っている。
特にPIDNet-Sは、シティスケープのテストセットで93.2 FPSの推論速度で78.6% mIOU、CamVidテストセットで81.6% mIOU、153.7 FPSの速度で達成している。
関連論文リスト
- A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - FBSNet: A Fast Bilateral Symmetrical Network for Real-Time Semantic
Segmentation [23.25851281719734]
リアルタイムセマンティックセグメンテーションのためのFBSNet(Fast Bilateral Symmetrical Network)を提案する。
FBSNetには対称デコーダ構造があり、2つの分岐、意味情報分岐、空間詳細分岐がある。
CityscapesとCamVidの実験結果から、提案したFBSNetは精度と効率のバランスが良いことを示している。
論文 参考訳(メタデータ) (2021-09-02T04:16:39Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - Real-time Semantic Segmentation with Context Aggregation Network [14.560708848716754]
本稿では,2分岐畳み込みニューラルネットワークを提案する。
本研究では,2つのセマンティックセグメンテーションデータセット,すなわちCityscapesデータセットとUAVidデータセットについて評価を行った。
論文 参考訳(メタデータ) (2020-11-02T14:16:23Z) - Dense Dual-Path Network for Real-time Semantic Segmentation [7.8381744043673045]
本稿では,資源制約下でのリアルタイムセマンティックセグメンテーションのための新しいDual-Path Network(DDPNet)を提案する。
DDPNetは、GTX 1080Tiカードの1024 X 2048解像度の入力に対して52.6 FPSで75.3% mIoUを達成した。
論文 参考訳(メタデータ) (2020-10-21T06:11:41Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。