論文の概要: CEDNet: A Cascade Encoder-Decoder Network for Dense Prediction
- arxiv url: http://arxiv.org/abs/2302.06052v2
- Date: Tue, 31 Oct 2023 07:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:54:52.049723
- Title: CEDNet: A Cascade Encoder-Decoder Network for Dense Prediction
- Title(参考訳): CEDNet: デンス予測のためのカスケードエンコーダデコーダネットワーク
- Authors: Gang Zhang, Ziyi Li, Chufeng Tang, Jianmin Li, Xiaolin Hu
- Abstract要約: オブジェクト検出、インスタンスのセグメンテーション、セマンティックセグメンテーションといった密集した予測タスクには、マルチスケールの機能が不可欠である。
我々はCEDNetと呼ばれる,高密度mboxpredictionタスクに適した列挙型カスケードエンコーダデコーダネットワークを提案する。
CEDNetのすべてのステージは同じエンコーダ-デコーダ構造を共有し、デコーダ内でマルチスケールの機能融合を実行する。
- 参考スコア(独自算出の注目度): 23.142342401794302
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-scale features are essential for dense prediction tasks, such as object
detection, instance segmentation, and semantic segmentation. The prevailing
methods usually utilize a classification backbone to extract multi-scale
features and then fuse these features using a lightweight module (e.g., the
fusion module in FPN and BiFPN, two typical object detection methods). However,
as these methods allocate most computational resources to the classification
backbone, the multi-scale feature fusion in these methods is delayed, which may
lead to inadequate feature fusion. While some methods perform feature fusion
from early stages, they either fail to fully leverage high-level features to
guide low-level feature learning or have complex structures, resulting in
sub-optimal performance. We propose a streamlined cascade encoder-decoder
network, dubbed CEDNet, tailored for dense \mbox{prediction} tasks. All stages
in CEDNet share the same encoder-decoder structure and perform multi-scale
feature fusion within the decoder. A hallmark of CEDNet is its ability to
incorporate high-level features from early stages to guide low-level feature
learning in subsequent stages, thereby enhancing the effectiveness of
multi-scale feature fusion. We explored three well-known encoder-decoder
structures: Hourglass, UNet, and FPN. When integrated into CEDNet, they
performed much better than traditional methods that use a pre-designed
classification backbone combined with a lightweight fusion module. Extensive
experiments on object detection, instance segmentation, and semantic
segmentation demonstrated the effectiveness of our method. The code is
available at https://github.com/zhanggang001/CEDNet.
- Abstract(参考訳): オブジェクト検出、インスタンスのセグメンテーション、セマンティックセグメンテーションといった複雑な予測タスクには、マルチスケールの機能が不可欠である。
一般的な方法では、分類バックボーンを使用してマルチスケールの特徴を抽出し、軽量モジュール(例えばFPNの融合モジュールと2つの典型的なオブジェクト検出方法であるBiFPN)を使ってこれらの特徴を融合する。
しかしながら、これらの手法は、ほとんどの計算資源を分類バックボーンに割り当てるため、これらの手法におけるマルチスケールな特徴融合は遅延し、不適切な特徴融合につながる可能性がある。
初期の段階から機能融合を行う手法もあるが、低レベルの特徴学習を導くために高レベルの特徴を完全に活用できないか、複雑な構造を持つかのいずれかであり、結果として準最適性能をもたらす。
本稿では,CEDNet と呼ばれる,高密度な \mbox{prediction} タスクに適したカスケードエンコーダ・デコーダネットワークを提案する。
cednetのすべてのステージは同じエンコーダ-デコーダ構造を共有し、デコーダ内でマルチスケールの機能融合を行う。
CEDNetの目玉は、初期から高レベルな特徴を組み込んで、その後の段階において低レベルな特徴学習をガイドし、マルチスケールな特徴融合の有効性を高める能力である。
我々は、Hourglass、UNet、FPNの3つのよく知られたエンコーダデコーダ構造を調査した。
CEDNetに統合されると、設計済みの分類バックボーンと軽量のフュージョンモジュールを組み合わせた従来のメソッドよりもはるかに優れたパフォーマンスを実現した。
オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションに関する広範な実験により,提案手法の有効性が示された。
コードはhttps://github.com/zhanggang001/cednetで入手できる。
関連論文リスト
- Fine-Grained Prototypes Distillation for Few-Shot Object Detection [8.795211323408513]
Few-shot Object Detection (FSOD) は、新しい物体検出のためのジェネリック検出器を、少数の訓練例で拡張することを目的としている。
一般に、メタラーニングに基づく手法は、新しいサンプルをクラスプロトタイプにエンコードするために追加のサポートブランチを使用する。
より堅牢な新しいオブジェクト検出のために、特徴ある局所的コンテキストをキャプチャするためには、新しい方法が必要である。
論文 参考訳(メタデータ) (2024-01-15T12:12:48Z) - U-Net v2: Rethinking the Skip Connections of U-Net for Medical Image Segmentation [14.450329809640422]
医用画像分割のための新しい堅牢で効率的なU-Net変種であるU-Net v2を紹介する。
セマンティックな情報を低レベルの機能に注入し、同時に細かな詳細で高レベルの機能を改善することを目的としている。
論文 参考訳(メタデータ) (2023-11-29T16:35:24Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている
本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。
このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T14:48:23Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。