論文の概要: Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2310.20305v1
- Date: Tue, 31 Oct 2023 09:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:44:37.328518
- Title: Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation
- Title(参考訳): 実時間セマンティックセグメンテーションのための残留Uブロックとデュアルガイドアテンションを有するバイラテラルネットワーク
- Authors: Liang Liao, Liang Wan, Mingsheng Liu, Shusheng Li
- Abstract要約: 注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。
Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 18.393208069320362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When some application scenarios need to use semantic segmentation technology,
like automatic driving, the primary concern comes to real-time performance
rather than extremely high segmentation accuracy. To achieve a good trade-off
between speed and accuracy, two-branch architecture has been proposed in recent
years. It treats spatial information and semantics information separately which
allows the model to be composed of two networks both not heavy. However, the
process of fusing features with two different scales becomes a performance
bottleneck for many nowaday two-branch models. In this research, we design a
new fusion mechanism for two-branch architecture which is guided by attention
computation. To be precise, we use the Dual-Guided Attention (DGA) module we
proposed to replace some multi-scale transformations with the calculation of
attention which means we only use several attention layers of near linear
complexity to achieve performance comparable to frequently-used multi-layer
fusion. To ensure that our module can be effective, we use Residual U-blocks
(RSU) to build one of the two branches in our networks which aims to obtain
better multi-scale features. Extensive experiments on Cityscapes and CamVid
dataset show the effectiveness of our method.
- Abstract(参考訳): 自動運転のようなセマンティックセグメンテーション技術が必要なアプリケーションシナリオでは、非常に高いセグメンテーション精度ではなく、リアルタイムのパフォーマンスが主な関心事となる。
速度と精度の良好なトレードオフを実現するため,近年2分岐アーキテクチャが提案されている。
空間情報と意味情報を別々に扱うことにより、モデルは重くない2つのネットワークで構成されることができる。
しかし、2つの異なるスケールで機能を融合するプロセスは、現在多くの2つの分岐モデルでパフォーマンスボトルネックとなっている。
本研究では,注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを用いて、注意の計算でいくつかのマルチスケール変換を置き換えることを提案した。
モジュールの有効性を保証するため、Residual U-blocks (RSU) を用いてネットワーク内の2つのブランチの1つを構築し、より優れたマルチスケール機能を実現する。
CityscapesとCamVidデータセットの大規模な実験により,本手法の有効性が示された。
関連論文リスト
- ESDMR-Net: A Lightweight Network With Expand-Squeeze and Dual Multiscale
Residual Connections for Medical Image Segmentation [7.921517156237902]
本稿では,拡張型マルチスケール残差ネットワーク(ESDMR-Net)を提案する。
完全な畳み込みネットワークであり、モバイルデバイスのようなリソースに制約のあるコンピューティングハードウェアに適している。
5つの異なる応用例から7つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-17T02:15:49Z) - Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for
Mobile Robots [17.90723909170376]
セマンティックセグメンテーションと境界検出を同時に行う軽量なフレームワークであるMobile-Seedを紹介する。
我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。
Cityscapesデータセットの実験によると、Mobile-Seedは最先端(SOTA)ベースラインよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-11-21T14:53:02Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - EMC2A-Net: An Efficient Multibranch Cross-channel Attention Network for
SAR Target Classification [10.479559839534033]
本稿では,マルチブランチ構造に基づくマルチスケール受信フィールド(RF)を有するEMC2Aブロックを2つ提案し,効率的な異方性アーキテクチャであるDCNN,EMC2A-Netを設計した。
EMC2Aブロックは、異なる拡張レートの並列拡張畳み込みを利用して、計算負担を大幅に増大させることなく、マルチスケールのコンテキスト特徴を効果的にキャプチャすることができる。
本稿では,EMC2Aモジュールと呼ばれるマルチスケールのマルチチャネルアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2022-08-03T04:31:52Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。