論文の概要: Reparameterizable Dual-Resolution Network for Real-time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2406.12496v1
- Date: Tue, 18 Jun 2024 10:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:17:37.221828
- Title: Reparameterizable Dual-Resolution Network for Real-time Semantic Segmentation
- Title(参考訳): リアルタイムセマンティックセグメンテーションのための再パラメータ化可能なデュアルリゾリューションネットワーク
- Authors: Guoyu Yang, Yuan Wang, Daming Shi,
- Abstract要約: RDRNetは、リアルタイムセマンティックセグメンテーションに特化したDual-Resolution Networkである。
RDRNetは2分岐アーキテクチャを採用し、トレーニング中にマルチパスブロックを利用し、推論時にそれらをシングルパスブロックに再パラメータ化する。
Cityscapes、CamVid、Pascal VOC 2012データセットの実験結果は、RDRNetが既存の最先端モデルよりもパフォーマンスとスピードの両方で優れていることを示している。
- 参考スコア(独自算出の注目度): 15.83905822380148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation plays a key role in applications such as autonomous driving and medical image. Although existing real-time semantic segmentation models achieve a commendable balance between accuracy and speed, their multi-path blocks still affect overall speed. To address this issue, this study proposes a Reparameterizable Dual-Resolution Network (RDRNet) dedicated to real-time semantic segmentation. Specifically, RDRNet employs a two-branch architecture, utilizing multi-path blocks during training and reparameterizing them into single-path blocks during inference, thereby enhancing both accuracy and inference speed simultaneously. Furthermore, we propose the Reparameterizable Pyramid Pooling Module (RPPM) to enhance the feature representation of the pyramid pooling module without increasing its inference time. Experimental results on the Cityscapes, CamVid, and Pascal VOC 2012 datasets demonstrate that RDRNet outperforms existing state-of-the-art models in terms of both performance and speed. The code is available at https://github.com/gyyang23/RDRNet.
- Abstract(参考訳): セマンティックセグメンテーションは、自律運転や医療画像などの応用において重要な役割を果たしている。
既存のリアルタイムセマンティックセグメンテーションモデルは精度と速度のバランスを保ちながら、そのマルチパスブロックは依然として全体の速度に影響を与える。
そこで本研究では,リアルタイムセマンティックセマンティックセグメンテーションに特化したReparameterizable Dual-Resolution Network (RDRNet)を提案する。
具体的には、RDRNetは、トレーニング中にマルチパスブロックを利用し、推論中にそれらをシングルパスブロックに再パラメータ化することで、精度と推論速度を同時に向上する。
さらに,パラメータ化可能なピラミッドプールモジュール (RPPM) を提案する。
Cityscapes、CamVid、Pascal VOC 2012データセットの実験結果は、RDRNetが既存の最先端モデルよりもパフォーマンスとスピードの両方で優れていることを示している。
コードはhttps://github.com/gyyang23/RDRNetで公開されている。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Multi-Level Aggregation and Recursive Alignment Architecture for Efficient Parallel Inference Segmentation Network [18.47001817385548]
セグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。
実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。
我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。
論文 参考訳(メタデータ) (2024-02-03T22:51:17Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Feature Reuse and Fusion for Real-time Semantic segmentation [0.0]
高分解能を維持しながら速度を上げる方法は議論され解決された問題である。
従来の設計経験に基づいて軽量ネットワークを設計し、最先端のリアルタイムセマンティックセマンティックセグメンテーションのレベルに到達したいと考えています。
論文 参考訳(メタデータ) (2021-05-27T06:47:02Z) - A De-raining semantic segmentation network for real-time foreground
segmentation [0.0]
本稿では,降雨環境におけるセグメンテーションのための軽量ネットワークであるDeraining Semantic Accuracy Network (DRSNet)を提案する。
雨滴の特性を解析することにより、MultiScaleSE Blockは入力画像のエンコードを目標としている。
異なるエンコーダ層とデコーダ層とのセマンティック情報を組み合わせるために,非対称スキップを用いることを提案する。
論文 参考訳(メタデータ) (2021-04-16T04:09:13Z) - HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation [95.47168925127089]
本稿では,エンコーダがデコーダのパラメータ(重み)をエンコードして生成する,新しいリアルタイムセマンティックセグメンテーションネットワークを提案する。
我々は、より高レベルなコンテキスト特徴を描画するためのネストされたU-Netからなる新しいタイプのハイパーネットワークを設計する。
論文 参考訳(メタデータ) (2020-12-21T18:58:18Z) - Dense Dual-Path Network for Real-time Semantic Segmentation [7.8381744043673045]
本稿では,資源制約下でのリアルタイムセマンティックセグメンテーションのための新しいDual-Path Network(DDPNet)を提案する。
DDPNetは、GTX 1080Tiカードの1024 X 2048解像度の入力に対して52.6 FPSで75.3% mIoUを達成した。
論文 参考訳(メタデータ) (2020-10-21T06:11:41Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。