論文の概要: PIDNet: A Real-time Semantic Segmentation Network Inspired by PID
Controllers
- arxiv url: http://arxiv.org/abs/2206.02066v3
- Date: Fri, 7 Apr 2023 01:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 15:31:38.603509
- Title: PIDNet: A Real-time Semantic Segmentation Network Inspired by PID
Controllers
- Title(参考訳): PIDNet: PIDコントローラにヒントを得たリアルタイムセマンティックセマンティックセグメンテーションネットワーク
- Authors: Jiacong Xu, Zixiang Xiong and Shankar P. Bhattacharyya
- Abstract要約: 2分岐ネットワークアーキテクチャは、リアルタイムセマンティックセグメンテーションタスクにおける効率と有効性を示している。
PIDNetは、詳細な情報、コンテキスト、境界情報を解析するための3つの分岐を含む。
私たちのPIDNetのファミリーは、推論速度と精度の最良のトレードオフを達成し、その精度は、CityscapesとCamVidデータセットに類似した推論速度を持つ既存のモデル全てを上回ります。
- 参考スコア(独自算出の注目度): 6.0653144230649865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-branch network architecture has shown its efficiency and effectiveness in
real-time semantic segmentation tasks. However, direct fusion of
high-resolution details and low-frequency context has the drawback of detailed
features being easily overwhelmed by surrounding contextual information. This
overshoot phenomenon limits the improvement of the segmentation accuracy of
existing two-branch models. In this paper, we make a connection between
Convolutional Neural Networks (CNN) and Proportional-Integral-Derivative (PID)
controllers and reveal that a two-branch network is equivalent to a
Proportional-Integral (PI) controller, which inherently suffers from similar
overshoot issues. To alleviate this problem, we propose a novel three-branch
network architecture: PIDNet, which contains three branches to parse detailed,
context and boundary information, respectively, and employs boundary attention
to guide the fusion of detailed and context branches. Our family of PIDNets
achieve the best trade-off between inference speed and accuracy and their
accuracy surpasses all the existing models with similar inference speed on the
Cityscapes and CamVid datasets. Specifically, PIDNet-S achieves 78.6% mIOU with
inference speed of 93.2 FPS on Cityscapes and 80.1% mIOU with speed of 153.7
FPS on CamVid.
- Abstract(参考訳): 2分岐ネットワークアーキテクチャは、リアルタイムセマンティックセグメンテーションタスクにおける効率と有効性を示している。
しかし、高分解能の詳細と低周波コンテキストの直接融合は、周囲の文脈情報によって容易に圧倒される詳細な特徴の欠点をもたらす。
このオーバーシュート現象は、既存の2分岐モデルのセグメンテーション精度の向上を制限する。
本稿では、畳み込みニューラルネットワーク(CNN)とPID(Proportional-Integral-Derivative)コントローラを接続し、2分岐ネットワークがProportional-Integral(PI)コントローラと等価であることを明らかにする。
この問題を解決するために,我々は3つの分岐ネットワークアーキテクチャpidnetを提案する。pidnetは,それぞれ詳細,コンテキスト,境界情報を解析する3つのブランチを含み,境界に注意を払い,詳細とコンテキストの分岐の融合を導く。
私たちのPIDNetのファミリーは、推論速度と精度の最良のトレードオフを達成し、その精度は、CityscapesとCamVidデータセットに類似した推論速度を持つ既存のモデル全てを上回ります。
具体的には、PIDNet-SはCityscapesで93.2 FPS、CamVidで80.1% mIOUで78.6% mIOUを達成した。
関連論文リスト
- A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - FBSNet: A Fast Bilateral Symmetrical Network for Real-Time Semantic
Segmentation [23.25851281719734]
リアルタイムセマンティックセグメンテーションのためのFBSNet(Fast Bilateral Symmetrical Network)を提案する。
FBSNetには対称デコーダ構造があり、2つの分岐、意味情報分岐、空間詳細分岐がある。
CityscapesとCamVidの実験結果から、提案したFBSNetは精度と効率のバランスが良いことを示している。
論文 参考訳(メタデータ) (2021-09-02T04:16:39Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - Real-time Semantic Segmentation with Context Aggregation Network [14.560708848716754]
本稿では,2分岐畳み込みニューラルネットワークを提案する。
本研究では,2つのセマンティックセグメンテーションデータセット,すなわちCityscapesデータセットとUAVidデータセットについて評価を行った。
論文 参考訳(メタデータ) (2020-11-02T14:16:23Z) - Dense Dual-Path Network for Real-time Semantic Segmentation [7.8381744043673045]
本稿では,資源制約下でのリアルタイムセマンティックセグメンテーションのための新しいDual-Path Network(DDPNet)を提案する。
DDPNetは、GTX 1080Tiカードの1024 X 2048解像度の入力に対して52.6 FPSで75.3% mIoUを達成した。
論文 参考訳(メタデータ) (2020-10-21T06:11:41Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。