Fugu-MT 論文翻訳(概要): Bilateral Network with Residual U-blocks and Dual-Guided Attention for Real-time Semantic Segmentation

論文の概要: Bilateral Network with Residual U-blocks and Dual-Guided Attention for Real-time Semantic Segmentation

arxiv url: http://arxiv.org/abs/2310.20305v1
Date: Tue, 31 Oct 2023 09:20:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 15:44:37.328518
Title: Bilateral Network with Residual U-blocks and Dual-Guided Attention for Real-time Semantic Segmentation
Title（参考訳）: 実時間セマンティックセグメンテーションのための残留Uブロックとデュアルガイドアテンションを有するバイラテラルネットワーク
Authors: Liang Liao, Liang Wan, Mingsheng Liu, Shusheng Li
Abstract要約: 注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。 Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
参考スコア（独自算出の注目度）: 18.393208069320362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When some application scenarios need to use semantic segmentation technology, like automatic driving, the primary concern comes to real-time performance rather than extremely high segmentation accuracy. To achieve a good trade-off between speed and accuracy, two-branch architecture has been proposed in recent years. It treats spatial information and semantics information separately which allows the model to be composed of two networks both not heavy. However, the process of fusing features with two different scales becomes a performance bottleneck for many nowaday two-branch models. In this research, we design a new fusion mechanism for two-branch architecture which is guided by attention computation. To be precise, we use the Dual-Guided Attention (DGA) module we proposed to replace some multi-scale transformations with the calculation of attention which means we only use several attention layers of near linear complexity to achieve performance comparable to frequently-used multi-layer fusion. To ensure that our module can be effective, we use Residual U-blocks (RSU) to build one of the two branches in our networks which aims to obtain better multi-scale features. Extensive experiments on Cityscapes and CamVid dataset show the effectiveness of our method.
Abstract（参考訳）: 自動運転のようなセマンティックセグメンテーション技術が必要なアプリケーションシナリオでは、非常に高いセグメンテーション精度ではなく、リアルタイムのパフォーマンスが主な関心事となる。速度と精度の良好なトレードオフを実現するため,近年2分岐アーキテクチャが提案されている。空間情報と意味情報を別々に扱うことにより、モデルは重くない2つのネットワークで構成されることができる。しかし、2つの異なるスケールで機能を融合するプロセスは、現在多くの2つの分岐モデルでパフォーマンスボトルネックとなっている。本研究では,注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。正確には、DGA(Dual-Guided Attention)モジュールを用いて、注意の計算でいくつかのマルチスケール変換を置き換えることを提案した。モジュールの有効性を保証するため、Residual U-blocks (RSU) を用いてネットワーク内の2つのブランチの1つを構築し、より優れたマルチスケール機能を実現する。 CityscapesとCamVidデータセットの大規模な実験により,本手法の有効性が示された。

関連論文リスト

Dual-Perspective United Transformer for Object Segmentation in Optical Remote Sensing Images [38.942152581251165]
本稿では,長距離依存関係と空間的詳細を同時に統合するユニークな構造を持つDPU変換器を提案する。特に,2つの視点から多種多様な情報を捉えるグローバル・ローカル・ミックス・アテンションを設計する。本稿では,表現能力を高めるために,ゲート型線形フィードフォワードネットワークを提案する。
論文参考訳（メタデータ） (2025-06-27T02:40:48Z)
DSU-Net:An Improved U-Net Model Based on DINOv2 and SAM2 with Multi-scale Cross-model Feature Enhancement [7.9006143460465355]
本稿では,DINOv2によるSAM2用マルチスケール機能協調フレームワークを提案する。コストのかかるトレーニングプロセスを必要とせず、カモフラージュ目標検出や有能なオブジェクト検出といった下流タスクにおいて、既存の最先端のメソオードを超越している。
論文参考訳（メタデータ） (2025-03-27T06:08:24Z)
CSFNet: A Cosine Similarity Fusion Network for Real-Time RGB-X Semantic Segmentation of Driving Scenes [0.0]
マルチモーダルなセマンティックセグメンテーション手法は、高い計算複雑性と低い推論速度に悩まされる。本稿では,リアルタイムRGB-XセマンティックセマンティックセグメンテーションモデルとしてCosine similarity Fusion Network (CSFNet)を提案する。 CSFNetは最先端の手法と競合する精度を持ち、速度に関しては最先端の手法である。
論文参考訳（メタデータ） (2024-07-01T14:34:32Z)
TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文参考訳（メタデータ） (2024-04-15T06:01:48Z)
Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [51.89707241449435]
本稿では,高分解能表現CNNにマルチヘッド自己認識を効率よく組み込むという課題に対処する。本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文参考訳（メタデータ） (2024-03-15T15:47:54Z)
ESDMR-Net: A Lightweight Network With Expand-Squeeze and Dual Multiscale Residual Connections for Medical Image Segmentation [7.921517156237902]
本稿では,拡張型マルチスケール残差ネットワーク(ESDMR-Net)を提案する。完全な畳み込みネットワークであり、モバイルデバイスのようなリソースに制約のあるコンピューティングハードウェアに適している。 5つの異なる応用例から7つのデータセットについて実験を行った。
論文参考訳（メタデータ） (2023-12-17T02:15:49Z)
Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for Mobile Robots [17.90723909170376]
セマンティックセグメンテーションと境界検出を同時に行う軽量なフレームワークであるMobile-Seedを紹介する。我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。 Cityscapesデータセットの実験によると、Mobile-Seedは最先端(SOTA)ベースラインよりも顕著に改善されている。
論文参考訳（メタデータ） (2023-11-21T14:53:02Z)
General-Purpose Multimodal Transformer meets Remote Sensing Semantic Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文参考訳（メタデータ） (2023-07-07T04:58:34Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。 CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文参考訳（メタデータ） (2022-10-13T16:03:53Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)
Decoupled and Memory-Reinforced Networks: Towards Effective Feature Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。現在のワンステップアプローチには2つの大きな課題があります。本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文参考訳（メタデータ） (2021-02-22T06:19:45Z)
Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文参考訳（メタデータ） (2020-01-06T20:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。