論文の概要: Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for
Mobile Robots
- arxiv url: http://arxiv.org/abs/2311.12651v3
- Date: Mon, 11 Mar 2024 04:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:21:10.418537
- Title: Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for
Mobile Robots
- Title(参考訳): 移動ロボットのセマンティック・セマンティック・セグメンテーションと境界検出
- Authors: Youqi Liao, Shuhao Kang, Jianping Li, Yang Liu, Yun Liu, Zhen Dong,
Bisheng Yang, Xieyuanli Chen
- Abstract要約: セマンティックセグメンテーションと境界検出を同時に行う軽量なフレームワークであるMobile-Seedを紹介する。
我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。
Cityscapesデータセットの実験によると、Mobile-Seedは最先端(SOTA)ベースラインよりも顕著に改善されている。
- 参考スコア(独自算出の注目度): 17.90723909170376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise and rapid delineation of sharp boundaries and robust semantics is
essential for numerous downstream robotic tasks, such as robot grasping and
manipulation, real-time semantic mapping, and online sensor calibration
performed on edge computing units. Although boundary detection and semantic
segmentation are complementary tasks, most studies focus on lightweight models
for semantic segmentation but overlook the critical role of boundary detection.
In this work, we introduce Mobile-Seed, a lightweight, dual-task framework
tailored for simultaneous semantic segmentation and boundary detection. Our
framework features a two-stream encoder, an active fusion decoder (AFD) and a
dual-task regularization approach. The encoder is divided into two pathways:
one captures category-aware semantic information, while the other discerns
boundaries from multi-scale features. The AFD module dynamically adapts the
fusion of semantic and boundary information by learning channel-wise
relationships, allowing for precise weight assignment of each channel.
Furthermore, we introduce a regularization loss to mitigate the conflicts in
dual-task learning and deep diversity supervision. Compared to existing
methods, the proposed Mobile-Seed offers a lightweight framework to
simultaneously improve semantic segmentation performance and accurately locate
object boundaries. Experiments on the Cityscapes dataset have shown that
Mobile-Seed achieves notable improvement over the state-of-the-art (SOTA)
baseline by 2.2 percentage points (pp) in mIoU and 4.2 pp in mF-score, while
maintaining an online inference speed of 23.9 frames-per-second (FPS) with
1024x2048 resolution input on an RTX 2080 Ti GPU. Additional experiments on
CamVid and PASCAL Context datasets confirm our method's generalizability. Code
and additional results are publicly available at
https://whu-usi3dv.github.io/Mobile-Seed/.
- Abstract(参考訳): シャープバウンダリとロバストセマンティクスの高精度かつ迅速なデライン化は、ロボットの把握と操作、リアルタイムセマンティクスマッピング、エッジコンピューティングユニットで実行されるオンラインセンサーキャリブレーションなど、多くの下流ロボットタスクに不可欠である。
境界検出とセマンティックセグメンテーションは相補的なタスクであるが、ほとんどの研究はセマンティックセグメンテーションの軽量モデルに焦点を当てているが、境界検出の重要な役割を見落としている。
本研究では,同時セマンティックセグメンテーションと境界検出に適した軽量なデュアルタスクフレームワークであるMobile-Seedを紹介する。
我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。
エンコーダは2つの経路に分けられる: 1つはカテゴリ認識のセマンティック情報をキャプチャし、もう1つはマルチスケールの特徴から境界を識別する。
AFDモジュールは、チャネル関係を学習することで意味情報と境界情報の融合を動的に適応し、各チャネルの正確な重み付けを可能にする。
さらに,二重タスク学習と深層ダイバーシティの監督における矛盾を軽減するために,正規化損失を導入する。
既存の手法と比較して,提案するMobile-Seedはセマンティックセグメンテーション性能を同時に改善し,オブジェクト境界を正確に特定する軽量なフレームワークを提供する。
Cityscapesデータセットの実験によると、Mobile-Seedは、RTX 2080 Ti GPU上で1024x2048の解像度で23.9フレーム/秒(FPS)のオンライン推論速度を維持しながら、mIoUで2.2ポイント(pp)、mFスコアで4.2ppという、最先端のSOTAベースラインよりも顕著に改善されている。
CamVidおよびPASCALコンテキストデータセットに関する追加実験により、我々のメソッドの一般化可能性が確認された。
コードと追加結果はhttps://whu-usi3dv.github.io/Mobile-Seed/で公開されている。
関連論文リスト
- MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。
Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-31T09:20:59Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Lightweight Salient Object Detection in Optical Remote-Sensing Images
via Semantic Matching and Edge Alignment [61.45639694373033]
セマンティックマッチングとエッジアライメントに基づく光リモートセンシング画像(ORSI-SOD)のための新しい軽量ネットワークSeaNetを提案する。
具体的には、機能抽出のための軽量MobileNet-V2、高レベルの機能のための動的セマンティックマッチングモジュール(DSMM)、推論のためのポータブルデコーダが含まれる。
論文 参考訳(メタデータ) (2023-01-07T04:33:51Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection [34.42038300372715]
我々は,シーンテキスト検出タスクのグローバルおよびローカル情報をモデル化する,シンプルで効果的なアーキテクチャであるDPTNetを提案する。
本稿では,コンボリューションネットワークと強力な自己認識機構を統合した並列設計を提案し,注目経路と畳み込み経路の相補的な手がかりを提供する。
我々のDPTNetはMSRA-TD500データセットの最先端結果を実現し、検出精度と速度の両面で他の標準ベンチマーク上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-08-21T12:58:45Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Joint Semantic Segmentation and Boundary Detection using Iterative
Pyramid Contexts [35.28037460530125]
本稿では,セマンティックセグメンテーションと境界検出のためのマルチタスク学習フレームワークを提案する。
意味境界検出のために,非意味境界の抑制を目的とした空間勾配融合を提案する。
我々の実験は最先端の作業よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-04-16T14:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。