論文の概要: CNN-transformer mixed model for object detection
- arxiv url: http://arxiv.org/abs/2212.06714v1
- Date: Tue, 13 Dec 2022 16:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 15:06:46.507228
- Title: CNN-transformer mixed model for object detection
- Title(参考訳): 物体検出のためのCNN-transformer混合モデル
- Authors: Wenshuo Li
- Abstract要約: 本稿では,トランスを用いた畳み込みモジュールを提案する。
CNNが抽出した詳細特徴と変換器が抽出したグローバル特徴とを融合させることにより、モデルの認識精度を向上させることを目的とする。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用したRCNN[4]よりも4.6向上した。
- 参考スコア(独自算出の注目度): 3.5897534810405403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection, one of the three main tasks of computer vision, has been
used in various applications. The main process is to use deep neural networks
to extract the features of an image and then use the features to identify the
class and location of an object. Therefore, the main direction to improve the
accuracy of object detection tasks is to improve the neural network to extract
features better. In this paper, I propose a convolutional module with a
transformer[1], which aims to improve the recognition accuracy of the model by
fusing the detailed features extracted by CNN[2] with the global features
extracted by a transformer and significantly reduce the computational effort of
the transformer module by deflating the feature mAP. The main execution steps
are convolutional downsampling to reduce the feature map size, then
self-attention calculation and upsampling, and finally concatenation with the
initial input. In the experimental part, after splicing the block to the end of
YOLOv5n[3] and training 300 epochs on the coco dataset, the mAP improved by
1.7% compared with the previous YOLOv5n, and the mAP curve did not show any
saturation phenomenon, so there is still potential for improvement. After 100
rounds of training on the Pascal VOC dataset, the accuracy of the results
reached 81%, which is 4.6 better than the faster RCNN[4] using resnet101[5] as
the backbone, but the number of parameters is less than one-twentieth of it.
- Abstract(参考訳): コンピュータビジョンの主要な3つのタスクの1つであるオブジェクト検出は、様々なアプリケーションで使われている。
主なプロセスは、ディープニューラルネットワークを使って画像の特徴を抽出し、その特徴を使ってオブジェクトのクラスと位置を特定することである。
したがって、物体検出タスクの精度を向上させる主な方向は、ニューラルネットワークを改善して特徴を抽出することである。
本稿では,cnn[2]によって抽出された詳細な特徴をトランスフォーマによって抽出された大域的な特徴と融合させることにより,モデルの認識精度を向上させることを目的とした,トランスフォーマの畳み込みモジュールを提案する。
主な実行ステップは、機能マップのサイズを減らすための畳み込みダウンサンプリング、そしてセルフアテンション計算とアップサンプリング、そして最終的に最初の入力と結合である。
実験では、ブロックをyolov5n[3]の終端にスプライシングし、cocoデータセット上で300エポックをトレーニングした後、以前のyolov5nと比較して1.7%改善し、地図曲線は飽和現象を示さなかったため、改善の可能性はまだある。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用するRCNN[4]よりも4.6良いが、パラメータの数は20分の1以下である。
関連論文リスト
- LeYOLO, New Scalable and Efficient CNN Architecture for Object Detection [0.0]
FLOPに基づく効率的な物体検出のためのニューラルネットワークアーキテクチャの設計選択に着目する。
そこで本研究では,YOLOモデルの有効性を高めるために,いくつかの最適化手法を提案する。
本稿では、オブジェクト検出のための新しいスケーリングパラダイムと、LeYOLOと呼ばれるYOLO中心のモデルに寄与する。
論文 参考訳(メタデータ) (2024-06-20T12:08:24Z) - Fostc3net:A Lightweight YOLOv5 Based On the Network Structure Optimization [11.969138981034247]
本稿では,モバイル機器向けにカスタマイズされた軽量YOLOv5技術を提案する。
提案モデルでは,検出精度が1%向上し,FLOPが13%減少し,既存のYOLOv5に比べてモデルパラメータが26%減少した。
論文 参考訳(メタデータ) (2024-03-20T16:07:04Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Unsupervised convolutional neural network fusion approach for change
detection in remote sensing images [1.892026266421264]
我々は、変化検出のための全く教師なし浅層畳み込みニューラルネットワーク(USCNN)融合アプローチを導入する。
我々のモデルには3つの特徴がある: トレーニングプロセス全体は教師なしで行われ、ネットワークアーキテクチャは浅く、目的関数はスパースである。
4つの実リモートセンシングデータセットの実験結果から,提案手法の有効性と有効性が確認された。
論文 参考訳(メタデータ) (2023-11-07T03:10:17Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - DETR++: Taming Your Multi-Scale Detection Transformer [22.522422934209807]
本稿では,Transformer-based detection,すなわちDETRを提案する。
トランスフォーマーの自己保持機構の二次的な複雑さのため、DETRはマルチスケールの機能を組み込むことはできない。
RICO アイコン検出では 11.5% AP で,RICO レイアウト抽出では 9.1% AP で検出結果を 1.9% AP で改善する新しいアーキテクチャ DETR++ を提案する。
論文 参考訳(メタデータ) (2022-06-07T02:38:31Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。