論文の概要: Multi-Scale Feature Aggregation by Cross-Scale Pixel-to-Region Relation
Operation for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2106.01744v1
- Date: Thu, 3 Jun 2021 10:49:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 16:08:21.738977
- Title: Multi-Scale Feature Aggregation by Cross-Scale Pixel-to-Region Relation
Operation for Semantic Segmentation
- Title(参考訳): 意味セグメンテーションのためのクロススケール画素間関係演算によるマルチスケール特徴の集約
- Authors: Yechao Bai, Ziyuan Huang, Lyuyu Shen, Hongliang Guo, Marcelo H. Ang Jr
and Daniela Rus
- Abstract要約: 本研究の目的は,隣接する高次特徴写像からの補的コンテキストを,クロススケールなピクセル・ツー・リージョン操作で集約することである。
マルチスケール特徴量を得るために,効率的な特徴ピラミッドネットワークを用いる。
実験の結果,RSPヘッドはセマンティックセグメンテーションとパノプティクスセグメンテーションの両方で高い効率で競争力を発揮することがわかった。
- 参考スコア(独自算出の注目度): 44.792859259093085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploiting multi-scale features has shown great potential in tackling
semantic segmentation problems. The aggregation is commonly done with sum or
concatenation (concat) followed by convolutional (conv) layers. However, it
fully passes down the high-level context to the following hierarchy without
considering their interrelation. In this work, we aim to enable the low-level
feature to aggregate the complementary context from adjacent high-level feature
maps by a cross-scale pixel-to-region relation operation. We leverage
cross-scale context propagation to make the long-range dependency capturable
even by the high-resolution low-level features. To this end, we employ an
efficient feature pyramid network to obtain multi-scale features. We propose a
Relational Semantics Extractor (RSE) and Relational Semantics Propagator (RSP)
for context extraction and propagation respectively. Then we stack several RSP
into an RSP head to achieve the progressive top-down distribution of the
context. Experiment results on two challenging datasets Cityscapes and COCO
demonstrate that the RSP head performs competitively on both semantic
segmentation and panoptic segmentation with high efficiency. It outperforms
DeeplabV3 [1] by 0.7% with 75% fewer FLOPs (multiply-adds) in the semantic
segmentation task.
- Abstract(参考訳): マルチスケール機能の爆発はセマンティックセグメンテーション問題に対処する大きな可能性を示している。
集約は通常、和または結合(concat)で行われ、続いて畳み込み(conv)層が続く。
しかし、その相互関係を考慮せずに、ハイレベルなコンテキストを次の階層に完全に継承する。
本研究では,隣接する高次特徴写像からの補的コンテキストを,クロススケールな画素間関係演算により集約することを目的とする。
我々は、高解像度の低レベル機能でも長距離依存性を許容できるように、クロススケールなコンテキスト伝搬を活用している。
この目的のために,マルチスケール機能を得るために,効率的な特徴ピラミッドネットワークを用いる。
本稿では,文脈抽出と伝達のための関係意味抽出器(rse)と関係意味伝達器(rsp)を提案する。
次に、複数のRSPをRSPヘッドに積み重ねて、コンテキストのプログレッシブなトップダウン分布を実現する。
CityscapesとCOCOの2つの挑戦的データセットの実験結果から,RCPヘッドはセマンティックセグメンテーションとパン光学セグメンテーションの両方で高い効率で競争力を発揮することが示された。
セマンティックセグメンテーションタスクでは、deeplabv3 [1]を0.7%上回り、フロップ(複数追加)は75%少ない。
関連論文リスト
- Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Multi-Content Interaction Network for Few-Shot Segmentation [37.80624074068096]
Few-Shot COCOは、サポート画像の制限とクラス内における大きな相違に挑戦している。
この問題を解決するために,MCINet(Multi-Content Interaction Network)を提案する。
MCINetは、他のクエリブランチから低レベルの構造情報を高レベルのセマンティック機能に組み込むことで、FSSを改善している。
論文 参考訳(メタデータ) (2023-03-11T04:21:59Z) - CFNet: Learning Correlation Functions for One-Stage Panoptic
Segmentation [46.252118473248316]
バックボーンの特徴を高めるために,まず,異なる場所のセマンティックレベルとインスタンスレベルの相関関係を推定することを提案する。
次に,改良された識別特徴をそれぞれ対応するセグメンテーションヘッドに供給する。
PQは45.1ドル%、ADE20kは32.6ドル%である。
論文 参考訳(メタデータ) (2022-01-13T05:31:14Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - HS3: Learning with Proper Task Complexity in Hierarchically Supervised
Semantic Segmentation [81.87943324048756]
本稿では,タスクの複雑さによって意味のある表現を学習するためのセグメンテーションネットワークの中間層を監督するトレーニングスキームである階層的意味論(Hierarchically Supervised Semantic,HS3)を提案する。
提案するHS3-Fuseフレームワークはセグメンテーション予測をさらに改善し、2つの大きなセグメンテーションベンチマークであるNYUD-v2とCityscapesで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-03T16:33:29Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z) - Associating Multi-Scale Receptive Fields for Fine-grained Recognition [5.079292308180334]
マルチスケールの受容場を2つの操作で関連付けるために,新しい多層非局所(CNL)モジュールを提案する。
CNLはクエリ層とすべてのレスポンス層の間の相関を計算する。
モデルでは,多層層間の空間的依存関係を構築し,より識別的な特徴を学習する。
論文 参考訳(メタデータ) (2020-05-19T01:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。