論文の概要: Towards a High-Performance Object Detector: Insights from Drone
Detection Using ViT and CNN-based Deep Learning Models
- arxiv url: http://arxiv.org/abs/2308.09899v1
- Date: Sat, 19 Aug 2023 03:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:18:58.651016
- Title: Towards a High-Performance Object Detector: Insights from Drone
Detection Using ViT and CNN-based Deep Learning Models
- Title(参考訳): 高性能物体検出に向けて:vitとcnnに基づくディープラーニングモデルを用いたドローン検出からの洞察
- Authors: Junyang Zhang
- Abstract要約: 我々は,CNN と ViT をベースとした各種モデルを構築し,単流体検出において,基本型 ViT が最高の CNN ベース転送学習モデルより4.6 倍堅牢であることを示す。
最先端のCNN検出器の能力を全面的に超えるためには、ViTはCNNよりも優れていますが、トレーニングデータ、計算能力、高度でパフォーマンス指向な設計も必要です。
- 参考スコア(独自算出の注目度): 0.0679877553227375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate drone detection is strongly desired in drone collision avoidance,
drone defense and autonomous Unmanned Aerial Vehicle (UAV) self-landing. With
the recent emergence of the Vision Transformer (ViT), this critical task is
reassessed in this paper using a UAV dataset composed of 1359 drone photos. We
construct various CNN and ViT-based models, demonstrating that for single-drone
detection, a basic ViT can achieve performance 4.6 times more robust than our
best CNN-based transfer learning models. By implementing the state-of-the-art
You Only Look Once (YOLO v7, 200 epochs) and the experimental ViT-based You
Only Look At One Sequence (YOLOS, 20 epochs) in multi-drone detection, we
attain impressive 98% and 96% mAP values, respectively. We find that ViT
outperforms CNN at the same epoch, but also requires more training data,
computational power, and sophisticated, performance-oriented designs to fully
surpass the capabilities of cutting-edge CNN detectors. We summarize the
distinct characteristics of ViT and CNN models to aid future researchers in
developing more efficient deep learning models.
- Abstract(参考訳): 正確なドローン検出は、ドローン衝突回避、ドローン防衛、無人無人航空機(UAV)の自律着陸において強く望まれる。
近年のViT(Vision Transformer)の出現により、この重要なタスクは1359枚のドローン写真からなるUAVデータセットを用いて再評価される。
我々は,CNN と ViT をベースとした各種モデルを構築し,単流体検出において,基本型 ViT が最高の CNN ベース転送学習モデルより4.6 倍堅牢であることを示す。
最先端のYou Only Look Once(YOLO v7, 200 epochs)と実験的なViTベースのYou Only Look At One Sequence(YOLOS, 20 epochs)をマルチドローン検出で実装することにより,98%,96%のmAP値が得られた。
最先端のCNN検出器の能力を全面的に超えるためには、ViTはCNNよりも優れていますが、トレーニングデータ、計算能力、高度でパフォーマンス指向な設計も必要です。
将来の研究者がより効率的な深層学習モデルを開発するのを助けるために,vitモデルとcnnモデルの異なる特徴を要約する。
関連論文リスト
- Performance Evaluation of Deep Learning-based Quadrotor UAV Detection and Tracking Methods [0.0]
無人航空機(UAV)は様々な分野で人気を博し、多くの利点を提供しているが、プライバシーと安全性に重大な課題をもたらす。
本稿では,これらの問題に対処する四極子UAVの検出と追跡のための最先端のソリューションについて検討する。
切削エッジディープラーニングモデル、特にYOLOv5とYOLOv8シリーズは、UAVを正確かつ迅速に識別する性能で評価されている。
論文 参考訳(メタデータ) (2024-09-30T23:37:02Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - Deep Neural Network Architecture Search for Accurate Visual Pose
Estimation aboard Nano-UAVs [69.19616451596342]
小型無人航空機(UAV)は、新興かつトレンドのトピックである。
我々は、新しいニューラルネットワーク探索(NAS)技術を活用し、視覚的ポーズ推定タスクのために複数の畳み込みニューラルネットワーク(CNN)を自動的に識別する。
その結果,10Hz@10mWおよび50Hz@90mWの実時間オンボード推算速度を達成しつつ,フィールド内制御誤差を32%低減し,現状を改善できた。
論文 参考訳(メタデータ) (2023-03-03T14:02:09Z) - DroneNet: Crowd Density Estimation using Self-ONNs for Drones [3.2575001434344286]
自己組織型オペレーショナルニューラルネットワーク(Self-ONN)を用いたドローン(DroneNet)の群集密度推定モデルを提案する。
Self-ONNは、CNNベースのモデルと比較して計算複雑性の低い効率的な学習機能を提供する。
評価の結果,提案するDroneNetは同等のCNNモデルにおいて優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-14T06:32:18Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Detection and Tracking Meet Drones Challenge [131.31749447313197]
本稿では、オブジェクト検出・追跡データセットとベンチマークのレビューを行い、手動アノテーションによる大規模ドローンによるオブジェクト検出・追跡データセットの収集の課題について論じる。
当社のVisDroneデータセットは、中国北部から南部にかけての14の都市部と郊外部で収集されたものです。
本稿では,ドローンにおける大規模物体検出・追跡の現場の現状を詳細に分析し,今後の方向性を提案するとともに,課題を結論づける。
論文 参考訳(メタデータ) (2020-01-16T00:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。