論文の概要: Aerial Flood Scene Classification Using Fine-Tuned Attention-based Architecture for Flood-Prone Countries in South Asia
- arxiv url: http://arxiv.org/abs/2411.00169v1
- Date: Thu, 31 Oct 2024 19:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:25.321562
- Title: Aerial Flood Scene Classification Using Fine-Tuned Attention-based Architecture for Flood-Prone Countries in South Asia
- Title(参考訳): 細調整アテンションに基づく南アジアの洪水地域向け空中洪水シーン分類
- Authors: Ibne Hassan, Aman Mujahid, Abdullah Al Hasib, Andalib Rahman Shagoto, Joyanta Jyoti Mondal, Meem Arafat Manab, Jannatun Noor,
- Abstract要約: 南アジア諸国の洪水の航空画像を集めた新しいデータセットを作成しました。
そこで本研究では,CCT(Compact Convolutional Transformer)に基づく手法を提案する。
また、YOLOv8オブジェクト検出モデルを実装し、画像内の家や人間を検出する。
- 参考スコア(独自算出の注目度): 0.953693516244499
- License:
- Abstract: Countries in South Asia experience many catastrophic flooding events regularly. Through image classification, it is possible to expedite search and rescue initiatives by classifying flood zones, including houses and humans. We create a new dataset collecting aerial imagery of flooding events across South Asian countries. For the classification, we propose a fine-tuned Compact Convolutional Transformer (CCT) based approach and some other cutting-edge transformer-based and Convolutional Neural Network-based architectures (CNN). We also implement the YOLOv8 object detection model and detect houses and humans within the imagery of our proposed dataset, and then compare the performance with our classification-based approach. Since the countries in South Asia have similar topography, housing structure, the color of flood water, and vegetation, this work can be more applicable to such a region as opposed to the rest of the world. The images are divided evenly into four classes: 'flood', 'flood with domicile', 'flood with humans', and 'no flood'. After experimenting with our proposed dataset on our fine-tuned CCT model, which has a comparatively lower number of weight parameters than many other transformer-based architectures designed for computer vision, it exhibits an accuracy and macro average precision of 98.62% and 98.50%. The other transformer-based architectures that we implement are the Vision Transformer (ViT), Swin Transformer, and External Attention Transformer (EANet), which give an accuracy of 88.66%, 84.74%, and 66.56% respectively. We also implement DCECNN (Deep Custom Ensembled Convolutional Neural Network), which is a custom ensemble model that we create by combining MobileNet, InceptionV3, and EfficientNetB0, and we obtain an accuracy of 98.78%. The architectures we implement are fine-tuned to achieve optimal performance on our dataset.
- Abstract(参考訳): 南アジアの国々は定期的に多くの破滅的な洪水を経験している。
画像分類により,家や人間を含む洪水帯を分類することで,探索・救助活動の迅速化が図られる。
南アジア諸国の洪水の航空画像を集めた新しいデータセットを作成しました。
本分類では,小型畳み込み変換器(CCT)と他の最先端変換器ベースおよび畳み込みニューラルネットワークベースアーキテクチャ(CNN)を提案する。
また、YOLOv8オブジェクト検出モデルを実装し、提案したデータセットのイメージ内の家や人間を検出し、その性能を分類に基づくアプローチと比較する。
南アジアの国々は、同様の地形、住宅構造、洪水水の色、植生を持っているため、世界の他地域とは対照的に、この作業が適用できる。
画像は「水」・「水」・「人」・「水」の4種類に均等に分けられる。
コンピュータビジョン用に設計された他のトランスフォーマーベースアーキテクチャと比較して比較的少ない重みパラメータを持つ細調整CTモデルで提案したデータセットを実験した後、精度とマクロ平均精度は98.62%と98.50%である。
私たちが実装した他のトランスベースのアーキテクチャとしては、ViT(Vision Transformer)、Swin Transformer(Swin Transformer)、EANet(Externent Attention Transformer)があり、それぞれ88.66%、84.74%、66.56%の精度である。
我々はまた、MobileNet、InceptionV3、EfficientNetB0を組み合わせた独自のアンサンブルモデルDCECNN(Deep Custom Ensembled Convolutional Neural Network)を実装し、98.78%の精度を得る。
私たちが実装したアーキテクチャは、データセット上で最適なパフォーマンスを達成するために微調整されています。
関連論文リスト
- Classification of Geographical Land Structure Using Convolution Neural Network and Transfer Learning [1.024113475677323]
本研究は, 都市計画・開発, 環境モニタリング, 災害管理など, 一連の応用を創出することができる。
本稿では、地理的な土地構造を分類するプロセスを自動化するための深層学習に基づくアプローチを開発した。
論文 参考訳(メタデータ) (2024-11-19T11:01:30Z) - On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery [0.0]
サイドスキャンソナー (SSS) 画像は海底の人工物体の分類においてユニークな課題を呈している。
本稿では、SSS画像のバイナリ分類タスクによく使用されるCNNアーキテクチャとともに、VTモデルの性能を厳格に比較する。
ViTベースのモデルは、f1スコア、精度、リコール、精度の指標で優れた分類性能を示す。
論文 参考訳(メタデータ) (2024-09-18T14:36:50Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Stereoscopic Universal Perturbations across Different Architectures and
Datasets [60.021985610201156]
本研究では,画像の逆摂動が不均一性推定タスクの深部ステレオマッチングネットワークに与える影響について検討する。
本稿では,データセット内の任意のステレオ画像対に追加されると,ステレオネットワークを騙すことのできる,単一の摂動セットを構築する方法を提案する。
我々の摂動は、最先端のステレオネットワークのD1エラーを1%から87%に増やすことができる。
論文 参考訳(メタデータ) (2021-12-12T02:11:31Z) - Forward-Looking Sonar Patch Matching: Modern CNNs, Ensembling, and
Uncertainty [0.0]
畳み込みニューラルネットワーク(CNN)は類似性関数を学習し、2つの入力ソナー画像が似ているかどうかを予測する。
最高の性能モデルは、0.955 AUCのDenseNet Two-Channelネットワーク、0.949 AUCのVGG-Siamese、0.921 AUCのDenseNet Siameseである。
論文 参考訳(メタデータ) (2021-08-02T17:49:56Z) - Continental-Scale Building Detection from High Resolution Satellite
Imagery [5.56205296867374]
アーキテクチャ,損失関数,正規化,事前学習,自己学習,後処理のバリエーションについて検討し,インスタンスセグメンテーション性能を向上する。
アフリカ全土の100万枚の衛星画像のデータセットを用いて、手動でラベル付けされた建築事例を含む実験が行われた。
本稿では,このモデルを用いた建物検出の性能向上のための新しい手法について報告する。
論文 参考訳(メタデータ) (2021-07-26T15:48:14Z) - GANav: Group-wise Attention Network for Classifying Navigable Regions in
Unstructured Outdoor Environments [54.21959527308051]
本稿では,RGB画像から,オフロード地形および非構造環境における安全かつ航行可能な領域を識別する新しい学習手法を提案する。
本手法は,粒度の粗いセマンティックセグメンテーションを用いて,そのナビビリティレベルに基づいて地形分類群を分類する。
RUGD と RELLIS-3D のデータセットを広範囲に評価することにより,我々の学習アルゴリズムがナビゲーションのためのオフロード地形における視覚知覚の精度を向上させることを示す。
論文 参考訳(メタデータ) (2021-03-07T02:16:24Z) - Seismic Facies Analysis: A Deep Domain Adaptation Approach [6.494634150546026]
ディープニューラルネットワーク(DNN)は、大量のラベル付き入力データから正確に学習することができるが、ラベル付きデータが不足している場合には、その処理に失敗することが多い。
本研究では,オランダ沖のF3ブロック3Dデータセット(ソースドメイン,SD)とカナダからのペノブスコット3Dサーベイデータ(ターゲットドメイン,TD)の地震画像について実験を行った。
EarthAdaptNet(EAN)と呼ばれるディープニューラルネットワークアーキテクチャは、少数のクラスがデータ不足を抱えている場合に、地震像を意味的にセグメンテーションするために提案されている。
論文 参考訳(メタデータ) (2020-11-20T17:09:06Z) - R-FCN: Object Detection via Region-based Fully Convolutional Networks [87.62557357527861]
我々は,高精度かつ効率的な物体検出のための領域ベースの完全畳み込みネットワークを提案する。
我々の結果は、Faster R-CNNよりも2.5-20倍高速で、1画像あたり170msのテストタイムで達成される。
論文 参考訳(メタデータ) (2016-05-20T15:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。