論文の概要: Attention-guided Chained Context Aggregation for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2002.12041v4
- Date: Fri, 21 May 2021 03:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:49:08.620167
- Title: Attention-guided Chained Context Aggregation for Semantic Segmentation
- Title(参考訳): セマンティクスセグメンテーションのための注意誘導連鎖コンテキストアグリゲーション
- Authors: Quan Tang, Fagui Liu, Tong Zhang, Jun Jiang and Yu Zhang
- Abstract要約: 本稿では,CAM(Chained Context Aggregation Module)と呼ばれる並列並列ハイブリッドパラダイムを提案する。
CAMは鎖に接続されたはしごのような情報の流れを通じて様々な空間スケールの特徴を得、それらを前融合と再融合という2段階のプロセスで融合する。
非対称デコーダを用いて予測マップの正確な空間的詳細を復元する階層型コンテキスト集約ネットワーク(CANet)を構築した。
- 参考スコア(独自算出の注目度): 13.555282589559885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The way features propagate in Fully Convolutional Networks is of momentous
importance to capture multi-scale contexts for obtaining precise segmentation
masks. This paper proposes a novel series-parallel hybrid paradigm called the
Chained Context Aggregation Module (CAM) to diversify feature propagation. CAM
gains features of various spatial scales through chain-connected ladder-style
information flows and fuses them in a two-stage process, namely pre-fusion and
re-fusion. The serial flow continuously increases receptive fields of output
neurons and those in parallel encode different region-based contexts. Each
information flow is a shallow encoder-decoder with appropriate down-sampling
scales to sufficiently capture contextual information. We further adopt an
attention model in CAM to guide feature re-fusion. Based on these developments,
we construct the Chained Context Aggregation Network (CANet), which employs an
asymmetric decoder to recover precise spatial details of prediction maps. We
conduct extensive experiments on six challenging datasets, including Pascal VOC
2012, Pascal Context, Cityscapes, CamVid, SUN-RGBD and GATECH. Results evidence
that CANet achieves state-of-the-art performance.
- Abstract(参考訳): 完全畳み込みネットワークにおける特徴の伝播は、精密なセグメンテーションマスクを得るために、マルチスケールのコンテキストをキャプチャする瞬間的に重要である。
本稿では,特徴伝達を多様化する新しい系列並列ハイブリッドパラダイムであるchained context aggregation module (cam)を提案する。
camは連鎖結合したラダー型情報フローを通じて様々な空間スケールの特徴を獲得し、それらを2段階のプロセス、すなわち前輸液と再輸液に融合させる。
連続流は出力ニューロンの受容野を継続的に増加させ、平行流は異なる領域ベースの文脈を符号化する。
各情報フローは、適切なダウンサンプリングスケールを持つ浅いエンコーダデコーダで、コンテキスト情報を十分にキャプチャする。
さらに,機能再融合を導くために,CAMの注意モデルを採用する。
これらの展開に基づき,非対称デコーダを用いて予測地図の正確な空間的詳細を復元するチェーン付きコンテキストアグリゲーションネットワーク(canet)を構築した。
我々は、Pascal VOC 2012、Pascal Context、Cityscapes、CamVid、SUN-RGBD、GATECHを含む6つの挑戦的データセットについて広範な実験を行った。
結果はCANetが最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Remote Sensing Image Segmentation Using Vision Mamba and Multi-Scale Multi-Frequency Feature Fusion [9.098711843118629]
本稿では、状態空間モデル(SSM)を導入し、視覚マンバ(CVMH-UNet)に基づく新しいハイブリッドセマンティックセマンティックネットワークを提案する。
本手法は、クロス2Dスキャン(CS2D)を用いて、複数の方向からグローバル情報をフルにキャプチャする、クロス走査型視覚状態空間ブロック(CVSSBlock)を設計する。
ローカル情報取得におけるビジョン・マンバ(VMamba)の制約を克服するために畳み込みニューラルネットワークのブランチを組み込むことにより、このアプローチはグローバル機能とローカル機能の両方の包括的な分析を促進する。
論文 参考訳(メタデータ) (2024-10-08T02:17:38Z) - ParaTransCNN: Parallelized TransCNN Encoder for Medical Image
Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。
特に小臓器では, セグメンテーションの精度が向上した。
論文 参考訳(メタデータ) (2024-01-27T05:58:36Z) - Co-attention Propagation Network for Zero-Shot Video Object Segmentation [91.71692262860323]
ゼロショットオブジェクトセグメンテーション(ZS-VOS)は、これらのオブジェクトを事前に知ることなく、ビデオシーケンス内のオブジェクトをセグメンテーションすることを目的としている。
既存のZS-VOSメソッドは、しばしば前景と背景を区別したり、複雑なシナリオで前景を追跡するのに苦労する。
本稿では,オブジェクトの追跡とセグメンテーションが可能なエンコーダデコーダに基づく階層的コアテンション伝搬ネットワーク(HCPN)を提案する。
論文 参考訳(メタデータ) (2023-04-08T04:45:48Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - LC3Net: Ladder context correlation complementary network for salient
object detection [0.32116198597240836]
我々は,新しいラグコンテキスト相関補完ネットワーク (LC3Net) を提案する。
FCBはフィルタリング可能な畳み込みブロックであり、初期特徴の多様性に関する情報の自動収集を支援する。
DCMは、異なるレベルの特徴の密集を促進するための密接なクロスモジュールである。
BCDは双方向圧縮デコーダであり、マルチスケール機能の段階的縮小を支援する。
論文 参考訳(メタデータ) (2021-10-21T03:12:32Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Semantic Segmentation With Multi Scale Spatial Attention For Self
Driving Cars [2.7317088388886384]
本稿では,様々なスケールのマルチスケール特徴融合を用いた新しいニューラルネットワークを提案し,その精度と効率的なセマンティックイメージセグメンテーションを提案する。
我々は、ResNetベースの特徴抽出器、ダウンサンプリング部における拡張畳み込み層、アップサンプリング部におけるアトラス畳み込み層を使用し、コンキャット操作を用いてそれらをマージした。
より文脈的な情報をエンコードし、ネットワークの受容領域を強化するため、新しいアテンションモジュールが提案されている。
論文 参考訳(メタデータ) (2020-06-30T20:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。