論文の概要: DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition
- arxiv url: http://arxiv.org/abs/2410.13663v1
- Date: Thu, 17 Oct 2024 15:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:28.432022
- Title: DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition
- Title(参考訳): DiRecNetV2: 航空災害認識のためのトランスフォーマー強化ネットワーク
- Authors: Demetris Shianios, Panayiotis Kolios, Christos Kyrkou,
- Abstract要約: 災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。
伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。
視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
- 参考スコア(独自算出の注目度): 4.678150356894011
- License:
- Abstract: The integration of Unmanned Aerial Vehicles (UAVs) with artificial intelligence (AI) models for aerial imagery processing in disaster assessment, necessitates models that demonstrate exceptional accuracy, computational efficiency, and real-time processing capabilities. Traditionally Convolutional Neural Networks (CNNs), demonstrate efficiency in local feature extraction but are limited by their potential for global context interpretation. On the other hand, Vision Transformers (ViTs) show promise for improved global context interpretation through the use of attention mechanisms, although they still remain underinvestigated in UAV-based disaster response applications. Bridging this research gap, we introduce DiRecNetV2, an improved hybrid model that utilizes convolutional and transformer layers. It merges the inductive biases of CNNs for robust feature extraction with the global context understanding of Transformers, maintaining a low computational load ideal for UAV applications. Additionally, we introduce a new, compact multi-label dataset of disasters, to set an initial benchmark for future research, exploring how models trained on single-label data perform in a multi-label test set. The study assesses lightweight CNNs and ViTs on the AIDERSv2 dataset, based on the frames per second (FPS) for efficiency and the weighted F1 scores for classification performance. DiRecNetV2 not only achieves a weighted F1 score of 0.964 on a single-label test set but also demonstrates adaptability, with a score of 0.614 on a complex multi-label test set, while functioning at 176.13 FPS on the Nvidia Orin Jetson device.
- Abstract(参考訳): Unmanned Aerial Vehicles (UAV) と人工知能(AI)モデルの統合により、災害時の航空画像処理が可能となり、異常な精度、計算効率、リアルタイム処理能力を示すモデルが必要となった。
従来の畳み込みニューラルネットワーク(CNN)は、局所的特徴抽出の効率を実証するが、大域的文脈解釈の可能性によって制限される。
一方、ViT(Vision Transformers)は、アテンションメカニズムを用いることで、グローバルなコンテキスト解釈の改善を約束するが、UAVベースの災害対応アプリケーションでは未検討のままである。
この研究ギャップを埋めて、畳み込み層と変圧器層を利用した改良型ハイブリッドモデルであるDiRecNetV2を導入する。
堅牢な特徴抽出のためにCNNの帰納バイアスとTransformerのグローバルコンテキスト理解を融合し、UAVアプリケーションに最適な計算負荷を抑える。
さらに、災害のコンパクトなマルチラベルデータセットを導入し、将来の研究のための最初のベンチマークを設定し、シングルラベルデータに基づいてトレーニングされたモデルがマルチラベルテストセットでどのように機能するかを探索する。
この研究は、AIDERSv2データセット上の軽量CNNとViTを、効率のためのフレーム/秒(FPS)と、分類性能のための重み付きF1スコアに基づいて評価する。
DiRecNetV2はシングルラベルテストセットで0.964の重み付きF1スコアを達成するだけでなく、複雑なマルチラベルテストセットで0.614スコア、Nvidia Orin Jetsonデバイスで176.13FPSで機能する。
関連論文リスト
- Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI [0.0]
本稿では,変分オートエンコーダ(VAE)に基づく知識蒸留手法を用いて,KD-XVAEと呼ばれる高度な侵入検知システムを提案する。
本モデルでは,1669個のパラメータで処理し,バッチ毎に0.3msの推論時間を実現することにより,複雑性を大幅に低減する。
論文 参考訳(メタデータ) (2024-10-11T17:57:16Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Automatic Visual Inspection of Rare Defects: A Framework based on
GP-WGAN and Enhanced Faster R-CNN [0.0]
本稿では,自動視覚検査(AVI)システムの2段階故障診断フレームワークを提案する。
第1段階では、実サンプルに基づいて新しいサンプルを合成する生成モデルが設計されている。
提案アルゴリズムは,実際のサンプルからオブジェクトを抽出し,ランダムにブレンドし,新しいサンプルを生成し,画像処理の性能を向上させる。
論文 参考訳(メタデータ) (2021-05-02T11:34:59Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - NVAE-GAN Based Approach for Unsupervised Time Series Anomaly Detection [19.726089445453734]
時系列異常検出は、多くの業界で一般的だが難しい課題である。
実世界から収集されたノイズデータから,時系列の異常を高精度に検出することは困難である。
我々は異常検出モデルを提案する:時系列から画像VAE (T2IVAE)
論文 参考訳(メタデータ) (2021-01-08T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。