論文の概要: SPFNet:Subspace Pyramid Fusion Network for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2204.01278v1
- Date: Mon, 4 Apr 2022 07:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 02:01:11.096314
- Title: SPFNet:Subspace Pyramid Fusion Network for Semantic Segmentation
- Title(参考訳): spfnet:意味セグメンテーションのためのサブスペースピラミッド融合ネットワーク
- Authors: Mohammed A. M. Elhassan, Chenhui Yang, Chenxi Huang and Tewodros
Legesse Munea
- Abstract要約: エンコーダ・デコーダ構造は、低レベルかつ高レベルな特徴マップを融合することにより、多くの視覚タスクの性能を著しく向上させた。
同様の低レベルの機能を複数のスケールで抽出することは、冗長な情報につながる可能性がある。
マルチスケール/グローバルなコンテキスト情報の影響を利用したサブスペースピラミッド融合ネットワーク(SPFNet)を提案する。
- 参考スコア(独自算出の注目度): 8.579613053834342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The encoder-decoder structure has significantly improved performance in many
vision tasks by fusing low-level and high-level feature maps. However, this
approach can hardly extract sufficient context information for pixel-wise
segmentation. In addition, extracting similar low-level features at multiple
scales could lead to redundant information. To tackle these issues, we propose
Subspace Pyramid Fusion Network (SPFNet). Specifically, we combine pyramidal
module and context aggregation module to exploit the impact of
multi-scale/global context information. At first, we construct a Subspace
Pyramid Fusion Module (SPFM) based on Reduced Pyramid Pooling (RPP). Then, we
propose the Efficient Global Context Aggregation (EGCA) module to capture
discriminative features by fusing multi-level global context features. Finally,
we add decoder-based subpixel convolution to retrieve the high-resolution
feature maps, which can help select category localization details. SPFM learns
separate RPP for each feature subspace to capture multi-scale feature
representations, which is more useful for semantic segmentation. EGCA adopts
shuffle attention mechanism to enhance communication across different
sub-features. Experimental results on two well-known semantic segmentation
datasets, including Camvid and Cityscapes, show that our proposed method is
competitive with other state-of-the-art methods.
- Abstract(参考訳): エンコーダ・デコーダ構造は低レベル・高レベルの特徴写像を融合することにより多くの視覚タスクの性能を著しく向上させた。
しかし,この手法ではピクセルワイドセグメンテーションに十分なコンテキスト情報を抽出できない。
さらに、同様の低レベルの機能を複数スケールで抽出することは、冗長な情報につながる可能性がある。
この問題に対処するため,我々はサブスペースピラミッド融合ネットワーク (spfnet) を提案する。
具体的には、ピラミッドモジュールとコンテキストアグリゲーションモジュールを組み合わせて、マルチスケール/グローバルコンテキスト情報の影響を利用する。
まず,Reduceed Pyramid Pooling(RPP)に基づくサブスペースピラミッド融合モジュール(SPFM)を構築する。
そこで我々は,多段階のグローバルコンテキスト特徴を融合させて識別的特徴を捕捉するEGCA(Efficient Global Context Aggregation)モジュールを提案する。
最後に、デコーダベースのサブピクセル畳み込みを加えて高解像度の特徴マップを検索し、カテゴリローカライゼーションの詳細を選択するのに役立つ。
SPFMは、各特徴部分空間毎に別個のRCPを学習し、意味的セグメンテーションに有用なマルチスケール特徴表現をキャプチャする。
EGCAはシャッフルアテンション機構を採用し、異なるサブ機能間のコミュニケーションを強化する。
CamvidとCityscapesを含む2つのよく知られたセマンティックセマンティックセマンティクスデータセットの実験結果から,提案手法は他の最先端手法と競合することを示す。
関連論文リスト
- FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - Dense Affinity Matching for Few-Shot Segmentation [83.65203917246745]
Few-Shot (FSS) は、新しいクラスイメージをいくつかのサンプルで分割することを目的としている。
本稿では,サポートクエリ間の相互作用を生かした密接な親和性マッチングフレームワークを提案する。
我々のフレームワークは0.68万のパラメータしか持たない異なる設定で非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2023-07-17T12:27:15Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - Multi-Scale Feature Fusion: Learning Better Semantic Segmentation for
Road Pothole Detection [9.356003255288417]
本稿では,単一モーダルなセマンティックセグメンテーションに基づく新しいポットホール検出手法を提案する。
まず、畳み込みニューラルネットワークを用いて入力画像から視覚的特徴を抽出する。
チャネルアテンションモジュールは、異なるフィーチャーマップの一貫性を高めるために、チャネル機能を再考する。
論文 参考訳(メタデータ) (2021-12-24T15:07:47Z) - Deep feature selection-and-fusion for RGB-D semantic segmentation [8.831857715361624]
本研究は,fsfnet (unified and efficient feature selection and-fusion network) を提案する。
FSFNetは、マルチモダリティ情報の明示的な融合に使用される対称クロスモダリティ残留融合モジュールを含む。
最新の手法と比較すると,提案モデルが2つの公開データセットで競合性能を発揮できることを実験的に評価した。
論文 参考訳(メタデータ) (2021-05-10T04:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。