論文の概要: Object Detection in Thermal Images Using Deep Learning for Unmanned
Aerial Vehicles
- arxiv url: http://arxiv.org/abs/2402.08251v1
- Date: Tue, 13 Feb 2024 06:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 16:17:57.780220
- Title: Object Detection in Thermal Images Using Deep Learning for Unmanned
Aerial Vehicles
- Title(参考訳): 深層学習による無人航空機の熱画像中の物体検出
- Authors: Minh Dang Tu, Kieu Trang Le, Manh Duong Phung
- Abstract要約: 本研究は,無人航空機が収集した熱画像中の微小物体と微小物体を認識可能なニューラルネットワークモデルを提案する。
背骨はYOLOv5の構造に基づいて開発され、最後にトランスフォーマーエンコーダが使用される。
ネックは、スライドウインドウと変圧器とを組み合わせたBI−FPNブロックを備え、予測ヘッドに入力された情報を増加させる。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a neural network model capable of recognizing small and
tiny objects in thermal images collected by unmanned aerial vehicles. Our model
consists of three parts, the backbone, the neck, and the prediction head. The
backbone is developed based on the structure of YOLOv5 combined with the use of
a transformer encoder at the end. The neck includes a BI-FPN block combined
with the use of a sliding window and a transformer to increase the information
fed into the prediction head. The prediction head carries out the detection by
evaluating feature maps with the Sigmoid function. The use of transformers with
attention and sliding windows increases recognition accuracy while keeping the
model at a reasonable number of parameters and computation requirements for
embedded systems. Experiments conducted on public dataset VEDAI and our
collected datasets show that our model has a higher accuracy than
state-of-the-art methods such as ResNet, Faster RCNN, ComNet, ViT, YOLOv5,
SMPNet, and DPNetV3. Experiments on the embedded computer Jetson AGX show that
our model achieves a real-time computation speed with a stability rate of over
90%.
- Abstract(参考訳): 本研究は,無人航空機が収集した熱画像中の微小物体と微小物体を認識可能なニューラルネットワークモデルを提案する。
私たちのモデルは、バックボーン、ネック、予測ヘッドの3つの部分で構成されています。
背骨はYOLOv5の構造に基づいて開発され、最後にトランスフォーマーエンコーダが使用される。
ネックは、スライドウインドウと変圧器とを組み合わせたBI−FPNブロックを備え、予測ヘッドに入力された情報を増加させる。
予測ヘッドは、Sigmoid関数を用いて特徴写像を評価して検出を行う。
注意とスライディングウィンドウを備えた変圧器の使用は、組み込みシステムのための適切なパラメータと計算要求の数をモデルに保ちながら、認識精度を高める。
公開データセットVEDAIと収集データセットを用いて行った実験により、我々のモデルはResNet, Faster RCNN, ComNet, ViT, YOLOv5, SMPNet, DPNetV3といった最先端の手法よりも精度が高いことがわかった。
組込みコンピュータjetson agxによる実験により,本モデルは90%以上の安定性を持つ実時間計算速度を達成した。
関連論文リスト
- SODAWideNet++: Combining Attention and Convolutions for Salient Object Detection [3.2586315449885106]
本稿では,Salient Object Detectionのために設計されたSODAWideNet++と呼ばれる新しいエンコーダ・デコーダ型ニューラルネットワークを提案する。
視覚変換器が初期からグローバルな受容場を得る能力に触発されて、注意誘導長距離特徴抽出(AGLRFE)モジュールを導入する。
ImageNet事前トレーニングの現在のパラダイムとは対照的に、提案したモデルエンドツーエンドの事前トレーニングのためにアノテーションをバイナライズすることで、COCOセマンティックセグメンテーションデータセットから118Kの注釈付き画像を修正します。
論文 参考訳(メタデータ) (2024-08-29T15:51:06Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - CNN-transformer mixed model for object detection [3.5897534810405403]
本稿では,トランスを用いた畳み込みモジュールを提案する。
CNNが抽出した詳細特徴と変換器が抽出したグローバル特徴とを融合させることにより、モデルの認識精度を向上させることを目的とする。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用したRCNN[4]よりも4.6向上した。
論文 参考訳(メタデータ) (2022-12-13T16:35:35Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - Positional Encoding Augmented GAN for the Assessment of Wind Flow for
Pedestrian Comfort in Urban Areas [0.41998444721319217]
本研究は,CFDを用いた3次元フローフィールドの計算から,建物のフットプリント上の2次元画像から画像への変換に基づく問題まで,歩行者の高さレベルでのフローフィールドの予測に至るまでの課題を言い換える。
本稿では,画像から画像への変換タスクの最先端を表現したPix2PixやCycleGANなど,GAN(Generative Adversarial Network)の利用について検討する。
論文 参考訳(メタデータ) (2021-12-15T19:37:11Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。