論文の概要: RGB-T Semantic Segmentation with Location, Activation, and Sharpening
- arxiv url: http://arxiv.org/abs/2210.14530v1
- Date: Wed, 26 Oct 2022 07:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:00:03.647160
- Title: RGB-T Semantic Segmentation with Location, Activation, and Sharpening
- Title(参考訳): 位置・アクティベーション・シャープニングを用いたrgb-t意味セグメンテーション
- Authors: Gongyang Li, Yike Wang, Zhi Liu, Xinpeng Zhang, Dan Zeng
- Abstract要約: 本稿では,RGB-Tセマンティックセマンティックセグメンテーションのための新しい機能融合ネットワークemphLASNetを提案する。
2つの公開データセットの実験結果から、LASNetが関連する最先端手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 27.381263494613556
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic segmentation is important for scene understanding. To address the
scenes of adverse illumination conditions of natural images, thermal infrared
(TIR) images are introduced. Most existing RGB-T semantic segmentation methods
follow three cross-modal fusion paradigms, i.e. encoder fusion, decoder fusion,
and feature fusion. Some methods, unfortunately, ignore the properties of RGB
and TIR features or the properties of features at different levels. In this
paper, we propose a novel feature fusion-based network for RGB-T semantic
segmentation, named \emph{LASNet}, which follows three steps of location,
activation, and sharpening. The highlight of LASNet is that we fully consider
the characteristics of cross-modal features at different levels, and
accordingly propose three specific modules for better segmentation. Concretely,
we propose a Collaborative Location Module (CLM) for high-level semantic
features, aiming to locate all potential objects. We propose a Complementary
Activation Module for middle-level features, aiming to activate exact regions
of different objects. We propose an Edge Sharpening Module (ESM) for low-level
texture features, aiming to sharpen the edges of objects. Furthermore, in the
training phase, we attach a location supervision and an edge supervision after
CLM and ESM, respectively, and impose two semantic supervisions in the decoder
part to facilitate network convergence. Experimental results on two public
datasets demonstrate that the superiority of our LASNet over relevant
state-of-the-art methods. The code and results of our method are available at
https://github.com/MathLee/LASNet.
- Abstract(参考訳): シーン理解にはセマンティックセグメンテーションが重要である。
自然画像の照明条件の悪さに対処するために、熱赤外(TIR)画像を導入する。
既存のrgb-tセマンティクスセグメンテーション法は、3つのクロスモーダル融合パラダイム、すなわちエンコーダ融合、デコーダ融合、特徴融合に従う。
残念なことに、いくつかのメソッドはRGBとTIRの特徴や異なるレベルの特徴を無視する。
本稿では,RGB-Tセマンティックセマンティックセグメンテーションのための新しいフュージョンベースネットワークであるemph{LASNet}を提案する。
LASNetの特長は、異なるレベルでのクロスモーダル機能の特徴を完全に考慮し、より良いセグメンテーションのための3つの特定のモジュールを提案することである。
具体的には,すべての潜在的なオブジェクトの探索を目的とした,高レベルなセマンティック機能のための協調配置モジュール(CLM)を提案する。
異なる対象の正確な領域を活性化することを目的とした,中間レベルの機能のための補完的アクティベーションモジュールを提案する。
低レベルのテクスチャ機能を実現するためのエッジシャープニングモジュール (ESM) を提案する。
さらに、トレーニング段階では、それぞれCLMとESMの後に位置監視とエッジ監視を付加し、デコーダ部に2つの意味的監督を課し、ネットワークの収束を促進する。
2つの公開データセットの実験結果から、LASNetが関連する最先端手法よりも優れていることが示された。
このメソッドのコードと結果は、https://github.com/mathlee/lasnetで入手できます。
関連論文リスト
- SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global
Cross-Modal Fusion [40.44084541717407]
ローカル-グローバル融合ネットワーク(LoGoNet)
LoGoNetは3Dオブジェクト検出リーダーボードで1位だ。
3つのクラスの検出性能が80 APH (L2) を超えるのは初めてである。
論文 参考訳(メタデータ) (2023-03-07T02:00:34Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Adjacent Context Coordination Network for Salient Object Detection in
Optical Remote Sensing Images [102.75699068451166]
本稿では,光RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて,隣接した特徴のコーディネートを探索するための新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。
提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsで動作する。
論文 参考訳(メタデータ) (2022-03-25T14:14:55Z) - Edge-aware Guidance Fusion Network for RGB Thermal Scene Parsing [4.913013713982677]
RGB熱シーン解析のためのエッジ対応誘導融合ネットワーク(EGFNet)を提案する。
RGBと熱情報を効果的に融合させるため,マルチモーダル融合モジュールを提案する。
高レベルな意味情報の重要性を考慮して,グローバルな情報モジュールと意味情報モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-09T01:12:47Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Boundary-Aware Geometric Encoding for Semantic Segmentation of Point
Clouds [45.270215729464056]
境界情報は2Dイメージセグメンテーションにおいて重要な役割を果たすが、通常は3Dポイントクラウドセグメンテーションでは無視される。
境界点を予測するための境界予測モジュール(BPM)を提案する。
予測された境界に基づいて、境界認識ジオメトリック。
GEMは、幾何学的情報をエンコードし、近隣の差別を伴う特徴を集約するように設計されている。
論文 参考訳(メタデータ) (2021-01-07T05:38:19Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - 3D Gated Recurrent Fusion for Semantic Scene Completion [32.86736222106503]
本稿では,セマンティック・シーン・コンプリート(SSC)タスクにおけるデータ融合の問題に取り組む。
本稿では,3次元ゲート型リカレント核融合ネットワーク(GRFNet)を提案する。
2つのベンチマークデータセットに対する実験は、SSCにおけるデータ融合のための提案されたGRFNetの優れた性能と有効性を示す。
論文 参考訳(メタデータ) (2020-02-17T21:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。