論文の概要: CFNet: Cascade Fusion Network for Dense Prediction
- arxiv url: http://arxiv.org/abs/2302.06052v1
- Date: Mon, 13 Feb 2023 02:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:50:54.697657
- Title: CFNet: Cascade Fusion Network for Dense Prediction
- Title(参考訳): CFNet: デンス予測のためのカスケード核融合ネットワーク
- Authors: Gang Zhang, Ziyi Li, Jianmin Li, Xiaolin Hu
- Abstract要約: 本稿では,カスケード・フュージョン・ネットワーク (CFNet) という新しいアーキテクチャを提案する。
幹といくつかのブロックで初期高分解能な特徴を抽出するのに加えて,CFNetのマルチスケール特徴を生成するためにいくつかのカスケードステージを導入する。
この設計により、バックボーン全体のパラメータの大きな割合で、より深く効果的に機能を融合することができる。
- 参考スコア(独自算出の注目度): 20.950516952703364
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-scale features are essential for dense prediction tasks, including
object detection, instance segmentation, and semantic segmentation. Existing
state-of-the-art methods usually first extract multi-scale features by a
classification backbone and then fuse these features by a lightweight module
(e.g. the fusion module in FPN). However, we argue that it may not be
sufficient to fuse the multi-scale features through such a paradigm, because
the parameters allocated for feature fusion are limited compared with the heavy
classification backbone. In order to address this issue, we propose a new
architecture named Cascade Fusion Network (CFNet) for dense prediction. Besides
the stem and several blocks used to extract initial high-resolution features,
we introduce several cascaded stages to generate multi-scale features in CFNet.
Each stage includes a sub-backbone for feature extraction and an extremely
lightweight transition block for feature integration. This design makes it
possible to fuse features more deeply and effectively with a large proportion
of parameters of the whole backbone. Extensive experiments on object detection,
instance segmentation, and semantic segmentation validated the effectiveness of
the proposed CFNet. Codes will be available at
https://github.com/zhanggang001/CFNet.
- Abstract(参考訳): オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、密集した予測タスクには、マルチスケール機能が不可欠である。
既存の最先端の手法は通常、分類バックボーンによって複数の特徴を抽出し、軽量モジュール(例えばFPNの融合モジュール)によってこれらの特徴を融合させる。
しかし,このようなパラダイムを通したマルチスケール特徴の融合は十分ではないかもしれない。なぜなら,特徴融合に割り当てられるパラメータは,重分類バックボーンと比較して限定的であるからである。
この問題に対処するため,我々はカスケード・フュージョン・ネットワーク (CFNet) という新しいアーキテクチャを提案する。
幹といくつかのブロックで初期高分解能な特徴を抽出するのに加えて,CFNetのマルチスケール特徴を生成するためにいくつかのカスケードステージを導入する。
各ステージには、機能抽出用のサブバックボーンと、機能統合のための非常に軽量なトランジションブロックが含まれている。
この設計により、バックボーン全体のパラメータの大きな割合で、より深く効果的に機能を融合することができる。
オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションに関する広範な実験により、提案するcfnetの有効性が検証された。
コードはhttps://github.com/zhanggang001/cfnetで入手できる。
関連論文リスト
- Fine-Grained Prototypes Distillation for Few-Shot Object Detection [8.795211323408513]
Few-shot Object Detection (FSOD) は、新しい物体検出のためのジェネリック検出器を、少数の訓練例で拡張することを目的としている。
一般に、メタラーニングに基づく手法は、新しいサンプルをクラスプロトタイプにエンコードするために追加のサポートブランチを使用する。
より堅牢な新しいオブジェクト検出のために、特徴ある局所的コンテキストをキャプチャするためには、新しい方法が必要である。
論文 参考訳(メタデータ) (2024-01-15T12:12:48Z) - U-Net v2: Rethinking the Skip Connections of U-Net for Medical Image Segmentation [14.450329809640422]
医用画像分割のための新しい堅牢で効率的なU-Net変種であるU-Net v2を紹介する。
セマンティックな情報を低レベルの機能に注入し、同時に細かな詳細で高レベルの機能を改善することを目的としている。
論文 参考訳(メタデータ) (2023-11-29T16:35:24Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている
本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。
このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T14:48:23Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。