論文の概要: CBNetV2: A Composite Backbone Network Architecture for Object Detection
- arxiv url: http://arxiv.org/abs/2107.00420v2
- Date: Fri, 2 Jul 2021 06:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 05:46:21.623342
- Title: CBNetV2: A Composite Backbone Network Architecture for Object Detection
- Title(参考訳): CBNetV2:オブジェクト検出のための複合バックボーンネットワークアーキテクチャ
- Authors: Tingting Liang, Xiaojie Chu, Yudong Liu, Yongtao Wang, Zhi Tang, Wei
Chu, Jingdong Chen, Haibing Ling
- Abstract要約: 本稿では,既存のオープンソースのトレーニング済みバックボーンの構成を組み込んだ新しいバックボーンネットワークCBNetV2を提案する。
CBNetV2アーキテクチャは、複合接続を介して接続される複数の同一のバックボーンをグループ化する。
CBNetV2は追加の事前訓練がなければ、1段と2段の検出器を含むメインストリームの検出器とアンカーベースとアンカーフリーの検出器に統合できる。
- 参考スコア(独自算出の注目度): 36.7661368832707
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Modern top-performing object detectors depend heavily on backbone networks,
whose advances bring consistent performance gains through exploring more
effective network structures. However, designing or searching for a new
backbone and pre-training it on ImageNet may require a large number of
computational resources, making it costly to obtain better detection
performance. In this paper, we propose a novel backbone network, namely
CBNetV2, by constructing compositions of existing open-sourced pre-trained
backbones. In particular, CBNetV2 architecture groups multiple identical
backbones, which are connected through composite connections. We also propose a
better training strategy with the Assistant Supervision for CBNet-based
detectors. Without additional pre-training, CBNetV2 can be integrated into
mainstream detectors, including one-stage and two-stage detectors, as well as
anchor-based and anchor-free-based ones, and significantly improve their
performance by more than 3.0% AP over the baseline on COCO. Also, experiments
provide strong evidence showing that composite backbones are more efficient and
resource-friendly than pre-trained wider and deeper networks, including
manual-based and NAS-based, as well as CNN-based and Transformer-based ones.
Particularly, with single-model and single-scale testing, our HTC Dual-Swin-B
achieves 58.6% box AP and 51.1% mask AP on COCO test-dev, which is
significantly better than the state-of-the-art result (i.e., 57.7% box AP and
50.2% mask AP) achieved by a stronger baseline HTC++ with a larger backbone
Swin-L. Code will be released at https://github.com/VDIGPKU/CBNetV2.
- Abstract(参考訳): 現代のトップパフォーマンスオブジェクト検出器はバックボーンネットワークに大きく依存しており、その進歩はより効率的なネットワーク構造を探索することで一貫した性能向上をもたらす。
しかし、新しいバックボーンを設計してimagenetで事前トレーニングするには大量の計算リソースが必要となり、より良い検出性能を得るのにコストがかかる。
本稿では,既存のオープンソースの学習済みバックボーンの構成を組み込んだ新しいバックボーンネットワークCBNetV2を提案する。
特にCBNetV2アーキテクチャは、複合接続を介して接続される複数の同一のバックボーンをグループ化する。
また、CBNetベースの検出器のためのAssistant Supervisionによるより良いトレーニング戦略を提案する。
CBNetV2は追加の事前訓練がなければ、1段と2段の検出器を含むメインストリームの検出器とアンカーベースとアンカーフリーベースの検出器に組み込むことができ、COCOのベースライン上での性能は3.0%以上向上する。
また、複合バックボーンは、手動ベースやNASベース、CNNベースやTransformerベースなど、トレーニング済みのより広いネットワークよりも効率的でリソースフレンドリであることを示す強力な証拠を提供する。
特に、シングルモデルとシングルスケールのテストでは、HTC Dual-Swin-Bが58.6%のボックスAPと51.1%のマスクAPをCOCOテストデブで達成しています。これは最先端の結果(57.7%のボックスAPと50.2%のマスクAP)よりもはるかに優れています。
関連論文リスト
- Edge Detectors Can Make Deep Convolutional Neural Networks More Robust [25.871767605100636]
本稿では、まずエッジ検出器をレイヤカーネルとして使用し、バイナリエッジ特徴分枝(BEFB)を設計し、バイナリエッジ特徴を学習する。
BEFB統合モデルの精度は、FGSM、PGD、C&W攻撃に直面する場合、すべてのデータセットのオリジナルのモデルよりも優れている。
本研究は,DCNNの形状的特徴とテクスチャ的特徴を組み合わせることで,DCNNの堅牢性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-02-26T10:54:26Z) - Searching for Network Width with Bilaterally Coupled Network [75.43658047510334]
この問題に対処するため、BCNet(Bilaterally Coupled Network)と呼ばれる新しいスーパーネットを導入する。
BCNetでは、各チャネルは高度に訓練され、同じ量のネットワーク幅を担っているため、ネットワーク幅をより正確に評価することができる。
本稿では,Channel-Bench-Macroというマクロ構造に対するオープンソースのワイド・ベンチマークを提案し,ワイド・サーチ・アルゴリズムの比較を行った。
論文 参考訳(メタデータ) (2022-03-25T15:32:46Z) - RCNet: Reverse Feature Pyramid and Cross-scale Shift Network for Object
Detection [10.847953426161924]
本稿では,RevFP(Reverse Feature Pyramid)とCSN(Cross-scale Shift Network)で構成されるRCNetを提案する。
RevFPは、局所的な双方向特徴融合を利用して、双方向ピラミッド推論パイプラインを簡素化する。
CSNは、隣接レベルと非隣接レベルの両方に直接表現を伝播し、より相関性の高いマルチスケール機能を実現する。
論文 参考訳(メタデータ) (2021-10-23T04:00:25Z) - Trident Pyramid Networks: The importance of processing at the feature
pyramid level for better object detection [50.008529403150206]
我々はTrident Pyramid Network (TPN)と呼ばれる新しいコアアーキテクチャを提案する。
TPNはより深い設計を可能にし、コミュニケーションベースの処理と自己処理のバランスを改善する。
TPNコアをオブジェクト検出ベンチマークで使用した場合,BifPNベースラインを1.5 APで上回り,一貫した改善が見られた。
論文 参考訳(メタデータ) (2021-10-08T09:59:59Z) - Single-stream CNN with Learnable Architecture for Multi-source Remote
Sensing Data [16.810239678639288]
マルチソースリモートセンシングデータ共同分類のための,深層畳み込みニューラルネットワーク(CNN)に基づく効率的なフレームワークを提案する。
提案手法は,最新のCNNモデルを任意のマルチソースリモートセンシングデータセットに理論的に調整することができる。
実験により,提案したシングルストリームCNNの有効性が示された。
論文 参考訳(メタデータ) (2021-09-13T16:10:41Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - Neural Architecture Search on Acoustic Scene Classification [13.529070650030313]
我々はMobileNetV2にインスパイアされた軽量で高性能なベースラインネットワークを提案する。
提案するベースラインに基づいて構築された動的アーキテクチャ空間を探索する。
実験の結果,検索されたネットワークはASCタスクに適していることがわかった。
論文 参考訳(メタデータ) (2019-12-30T06:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。