論文の概要: SCAResNet: A ResNet Variant Optimized for Tiny Object Detection in Transmission and Distribution Towers
- arxiv url: http://arxiv.org/abs/2404.04179v1
- Date: Fri, 5 Apr 2024 15:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-08 15:55:28.098435
- Title: SCAResNet: A ResNet Variant Optimized for Tiny Object Detection in Transmission and Distribution Towers
- Title(参考訳): SCAResNet:送電塔におけるTinyオブジェクト検出に最適化されたResNetバリアント
- Authors: Weile Li, Muqing Shi, Zhonghua Hong,
- Abstract要約: 従来のディープラーニングベースのオブジェクト検出ネットワークは、データ前処理の段階でイメージをリサイズし、特徴マップの均一なサイズとスケールを達成する。
本研究では,複数の表現部分空間からコンテキスト情報を抽出し学習するために,位置対応型マルチヘッドCriss-Cross Imageryを導入する。
このアプローチにより、大きさやスケールの異なる画像が一様次元の特徴写像を生成でき、特徴写像の伝搬に利用できる。
- 参考スコア(独自算出の注目度): 0.42028553027796633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional deep learning-based object detection networks often resize images during the data preprocessing stage to achieve a uniform size and scale in the feature map. Resizing is done to facilitate model propagation and fully connected classification. However, resizing inevitably leads to object deformation and loss of valuable information in the images. This drawback becomes particularly pronounced for tiny objects like distribution towers with linear shapes and few pixels. To address this issue, we propose abandoning the resizing operation. Instead, we introduce Positional-Encoding Multi-head Criss-Cross Attention. This allows the model to capture contextual information and learn from multiple representation subspaces, effectively enriching the semantics of distribution towers. Additionally, we enhance Spatial Pyramid Pooling by reshaping three pooled feature maps into a new unified one while also reducing the computational burden. This approach allows images of different sizes and scales to generate feature maps with uniform dimensions and can be employed in feature map propagation. Our SCAResNet incorporates these aforementioned improvements into the backbone network ResNet. We evaluated our SCAResNet using the Electric Transmission and Distribution Infrastructure Imagery dataset from Duke University. Without any additional tricks, we employed various object detection models with Gaussian Receptive Field based Label Assignment as the baseline. When incorporating the SCAResNet into the baseline model, we achieved a 2.1% improvement in mAPs. This demonstrates the advantages of our SCAResNet in detecting transmission and distribution towers and its value in tiny object detection. The source code is available at https://github.com/LisavilaLee/SCAResNet_mmdet.
- Abstract(参考訳): 従来のディープラーニングベースのオブジェクト検出ネットワークは、しばしばデータ前処理の段階で画像を再サイズ化し、特徴マップの均一なサイズとスケールを達成する。
リサイズは、モデル伝播と完全に連結された分類を容易にするために行われる。
しかし、再サイズは必然的に画像のオブジェクトの変形や貴重な情報の喪失につながる。
この欠点は、直線的な形状と少ないピクセルを持つ分布塔のような小さな物体に対して特に顕著になる。
この問題に対処するため,リサイズ操作の廃止を提案する。
代わりに、位置エンコード型マルチヘッドCriss-Crossアテンションを導入する。
これにより、モデルはコンテキスト情報をキャプチャし、複数の表現部分空間から学習し、分散塔のセマンティクスを効果的に強化することができる。
さらに、3つのプールされた特徴マップを新しい統一マップに再構成し、計算負担を軽減し、空間ピラミッドのプール化を強化した。
このアプローチにより、大きさやスケールの異なる画像が一様次元の特徴写像を生成でき、特徴写像の伝搬に利用できる。
SCAResNetは前述の改善をバックボーンネットワークのResNetに組み込んでいます。
デューク大学のElectric Transmission and Distribution Infrastructure Imageryデータセットを用いてSCAResNetを評価した。
追加のトリックを伴わずに,ガウス受容場に基づくラベルアサインメントをベースラインとして,様々な物体検出モデルを適用した。
SCAResNetをベースラインモデルに組み込むことで、mAPの2.1%の改善を実現しました。
これにより、送信塔や配電塔の検出におけるSCAResNetの利点と、微小物体検出におけるその価値が示される。
ソースコードはhttps://github.com/LisavilaLee/SCAResNet_mmdetで公開されている。
関連論文リスト
- Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - SODAWideNet -- Salient Object Detection with an Attention augmented Wide
Encoder Decoder network without ImageNet pre-training [3.66237529322911]
我々は、ImageNet事前トレーニングなしで、Salient Object Detectionを直接訓練したスクラッチからニューラルネットワークを開発することを検討する。
本稿では,Salient Object Detection のためのエンコーダデコーダ型ネットワーク SODAWideNet を提案する。
SODAWideNet-S (3.03M) と SODAWideNet (9.03M) の2つの変種は、5つのデータセット上の最先端モデルと競合する性能を達成する。
論文 参考訳(メタデータ) (2023-11-08T16:53:44Z) - ScaleNet: An Unsupervised Representation Learning Method for Limited
Information [0.0]
ScaleNet という,シンプルで効率的な非教師なし表現学習手法を提案する。
ハリスコーナー情報のような特定の画像特徴は、回転予測タスクの効率において重要な役割を果たす。
限られたデータを持つScaleNetモデルから転送されたパラメータは、RotNetモデルと比較して、ImageNet分類タスクを約6%改善する。
論文 参考訳(メタデータ) (2023-10-03T19:13:43Z) - SARAS-Net: Scale and Relation Aware Siamese Network for Change Detection [6.12477318852572]
変化検出(CD)は、異なるタイミングで2つの画像の違いを見つけ、その領域が変化したか否かを表す変更マップを出力することを目的としている。
多くのState-of-The-Art(SoTA)メソッドは、強力な識別能力を持つディープラーニングモデルを設計する。
本稿では,この問題に対処するためのネットワークであるスケール・アンド・リレーション・アウェア・シームズ・ネットワーク(SARAS-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T16:30:33Z) - a novel attention-based network for fast salient object detection [14.246237737452105]
現在の有向物体検出ネットワークにおいて、最も一般的な方法はU字型構造を用いることである。
3つのコントリビューションを持つ新しい深層畳み込みネットワークアーキテクチャを提案する。
提案手法は, 精度を損なうことなく, 原サイズの1/3まで圧縮できることを示した。
論文 参考訳(メタデータ) (2021-12-20T12:30:20Z) - Multi-patch Feature Pyramid Network for Weakly Supervised Object
Detection in Optical Remote Sensing Images [39.25541709228373]
マルチパッチ特徴ピラミッドネットワーク(MPFP-Net)を用いたオブジェクト検出のための新しいアーキテクチャを提案する。
MPFP-Netは、トレーニング中の最も差別的なパッチのみを追求する現在のモデルとは異なる。
残余値の正則化と核融合遷移層を厳密にノルム保存する有効な方法を提案する。
論文 参考訳(メタデータ) (2021-08-18T09:25:39Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - NETNet: Neighbor Erasing and Transferring Network for Better Single Shot
Object Detection [170.30694322460045]
我々は、ピラミッドの特徴を再設定し、スケールアウェアな特徴を探索する新しいNeighbor Erasing and Transferring(NET)メカニズムを提案する。
NETNetと呼ばれるシングルショットネットワークは、スケールアウェアなオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2020-01-18T15:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。