論文の概要: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for
Object Detection on Drone-captured Scenarios
- arxiv url: http://arxiv.org/abs/2108.11539v1
- Date: Thu, 26 Aug 2021 01:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:16:37.368341
- Title: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for
Object Detection on Drone-captured Scenarios
- Title(参考訳): TPH-YOLOv5: ドローン捕獲シナリオにおけるオブジェクト検出のためのトランスフォーマ予測ヘッドに基づくYOLOv5の改良
- Authors: Xingkui Zhu, Shuchang Lyu, Xu Wang, Qi Zhao
- Abstract要約: ドローンが捉えたシナリオにおけるオブジェクト検出は一般的なタスクである。
高速で低高度の飛行では、密集した物体の運動がぼやけてしまう。
YOLOv5に基づいて、異なるスケールのオブジェクトを検出するために、さらに1つの予測ヘッドを追加します。
我々は、元の予測ヘッドをトランスフォーマー予測ヘッドに置き換える。
- 参考スコア(独自算出の注目度): 19.12254722446651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection on drone-captured scenarios is a recent popular task. As
drones always navigate in different altitudes, the object scale varies
violently, which burdens the optimization of networks. Moreover, high-speed and
low-altitude flight bring in the motion blur on the densely packed objects,
which leads to great challenge of object distinction. To solve the two issues
mentioned above, we propose TPH-YOLOv5. Based on YOLOv5, we add one more
prediction head to detect different-scale objects. Then we replace the original
prediction heads with Transformer Prediction Heads (TPH) to explore the
prediction potential with self-attention mechanism. We also integrate
convolutional block attention model (CBAM) to find attention region on
scenarios with dense objects. To achieve more improvement of our proposed
TPH-YOLOv5, we provide bags of useful strategies such as data augmentation,
multiscale testing, multi-model integration and utilizing extra classifier.
Extensive experiments on dataset VisDrone2021 show that TPH-YOLOv5 have good
performance with impressive interpretability on drone-captured scenarios. On
DET-test-challenge dataset, the AP result of TPH-YOLOv5 are 39.18%, which is
better than previous SOTA method (DPNetV3) by 1.81%. On VisDrone Challenge
2021, TPHYOLOv5 wins 5th place and achieves well-matched results with 1st place
model (AP 39.43%). Compared to baseline model (YOLOv5), TPH-YOLOv5 improves
about 7%, which is encouraging and competitive.
- Abstract(参考訳): ドローンが捕捉するシナリオにおけるオブジェクト検出は、最近の一般的なタスクである。
ドローンは常に異なる高度を移動するため、オブジェクトスケールは激しく異なり、ネットワークの最適化に負担がかかる。
さらに、高速で低高度の飛行は、密集した物体に動きのぼやけをもたらすため、物体の区別は大きな課題となる。
上記の2つの問題を解決するために,TPH-YOLOv5を提案する。
YOLOv5に基づいて、異なるスケールのオブジェクトを検出するために、別の予測ヘッドを追加します。
次に,従来の予測ヘッドを Transformer Prediction Heads (TPH) に置き換え,自己認識機構を用いて予測ポテンシャルを探索する。
また、畳み込みブロックアテンションモデル(CBAM)を統合し、密集したオブジェクトのシナリオに注意領域を求める。
提案するTPH-YOLOv5の改良のために,データ拡張,マルチスケールテスト,マルチモデル統合,余分な分類器の利用など,有用な戦略の袋を提供する。
データセットのVisDrone2021に関する大規模な実験によると、TPH-YOLOv5は、ドローンが捉えたシナリオにおいて、優れた解釈性を持つ。
DET-test-challengeデータセットでは、TPH-YOLOv5のAP結果は39.18%であり、従来のSOTA法(DPNetV3)よりも1.81%良い。
2021年のVisDrone Challengeでは、TPHYOLOv5が5位となり、1位モデル(AP 39.43%)で好成績を挙げた。
ベースラインモデル(yolov5)と比較して、tph-yolov5は約7%改善している。
関連論文リスト
- DroBoost: An Intelligent Score and Model Boosting Method for Drone Detection [1.2564343689544843]
ドローン検出は、画像の可視性や品質が好ましくないような、困難な物体検出タスクである。
私たちの仕事は、いくつかの改善を組み合わせることで、以前のアプローチを改善します。
提案された技術は、Drone vs. Bird Challengeで1位を獲得した。
論文 参考訳(メタデータ) (2024-06-30T20:49:56Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection
with Super Resolution [4.107182710549721]
超解像度と適応型軽量YOLOv5アーキテクチャを組み合わせた革新的なアプローチを提案する。
実験により,小型で密集した物体の検出において,モデルの性能が優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T05:50:58Z) - HIC-YOLOv5: Improved YOLOv5 For Small Object Detection [2.4780916008623834]
改良されたYOLOv5モデル: 上記の問題に対処するためにHIC-YOLOv5を提案する。
バックボーンとネックの間には、インボリューションブロックが採用され、特徴マップのチャネル情報を増加させる。
我々の結果は、HIC-YOLOv5がmAP@[.5:.95]を6.42%改善し、mAP@0.5を9.38%改善したことを示している。
論文 参考訳(メタデータ) (2023-09-28T12:40:36Z) - Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism [40.31805155724484]
Gold-YOLOと名付けられた新しい設計モデルは、マルチスケールの機能融合能力を向上する。
YOLOシリーズにMAEスタイルの事前トレーニングを初めて実装し、YOLOシリーズモデルが教師なし事前トレーニングの恩恵を受けることができるようにした。
論文 参考訳(メタデータ) (2023-09-20T14:03:47Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - YOLOv3 with Spatial Pyramid Pooling for Object Detection with Unmanned
Aerial Vehicles [0.0]
我々は,背骨ダークネット53の端に空間ピラミッドポーリング層を追加することで,一段検出器YOLOv3の性能向上を目指す。
また, YOLOv3法の異なるバージョンについて評価を行った。
論文 参考訳(メタデータ) (2023-05-21T04:41:52Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z) - Improving 3D Object Detection through Progressive Population Based
Augmentation [91.56261177665762]
本稿では3次元オブジェクト検出のためのデータ拡張ポリシーの設計を自動化するための最初の試みを示す。
このアルゴリズムは,探索空間を狭め,過去の反復で発見された最良のパラメータを採用することで,拡張戦略の最適化を学習する。
PPBAは, 拡張のないベースライン3次元検出モデルよりも最大10倍のデータ効率が高く, ラベル付きモデルよりもはるかに少ない精度で3次元検出モデルが競合精度を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-04-02T05:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。