論文の概要: A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification
- arxiv url: http://arxiv.org/abs/2203.16325v1
- Date: Tue, 29 Mar 2022 09:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 13:21:51.332582
- Title: A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification
- Title(参考訳): 空中シーン分類のための多段二重融合コンベネット
- Authors: Jingjun Yi and Beichen Zhou
- Abstract要約: マルチステージ二重核融合ネットワーク (MSDF-Net) を開発した。
MSDF-NetはDFblockを備えた多段構造で構成されている。
広範に使用されている3つの航空シーン分類ベンチマークで実験が行われた。
- 参考スコア(独自算出の注目度): 4.061135251278187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deep learning based methods effectively prompt the performance of
aerial scene classification. However, due to the large amount of parameters and
computational cost, it is rather difficult to apply these methods to multiple
real-time remote sensing applications such as on-board data preception on
drones and satellites. In this paper, we address this task by developing a
light-weight ConvNet named multi-stage duplex fusion network (MSDF-Net). The
key idea is to use parameters as little as possible while obtaining as strong
as possible scene representation capability. To this end, a residual-dense
duplex fusion strategy is developed to enhance the feature propagation while
re-using parameters as much as possible, and is realized by our duplex fusion
block (DFblock). Specifically, our MSDF-Net consists of multi-stage structures
with DFblock. Moreover, duplex semantic aggregation (DSA) module is developed
to mine the remote sensing scene information from extracted convolutional
features, which also contains two parallel branches for semantic description.
Extensive experiments are conducted on three widely-used aerial scene
classification benchmarks, and reflect that our MSDF-Net can achieve a
competitive performance against the recent state-of-art while reducing up to
80% parameter numbers. Particularly, an accuracy of 92.96% is achieved on AID
with only 0.49M parameters.
- Abstract(参考訳): 既存のディープラーニングに基づく手法は,航空シーン分類の性能を効果的に促進する。
しかし、大量のパラメータと計算コストのため、ドローンや衛星上でのオンボードデータプリセプションのような複数のリアルタイムリモートセンシングアプリケーションにこれらの手法を適用することは比較的困難である。
本稿では,マルチステージ二重核融合ネットワーク (MSDF-Net) という軽量な ConvNet を開発した。
キーとなるアイデアは、可能な限り強力なシーン表現能力を得ながら、パラメータを可能な限り少なく使用することです。
この目的のために, パラメータを再使用しながら特徴伝播を極力高めるために, 残留密度二重核融合戦略を開発し, 我々の二重核融合ブロック(DFblock)により実現した。
具体的には,MSDF-NetはDFブロックを持つ多段構造からなる。
さらに, 抽出された畳み込み特徴からリモートセンシングシーン情報を抽出し, 意味記述のための2つの並列分岐を含むdsaモジュールを開発した。
広範に利用されている3つの航空シーン分類ベンチマークで大規模な実験を行い、MSDF-Netは、最新の最先端技術に対して最大80%のパラメータ数を削減しながら、競争性能を達成可能であることを反映した。
特に、92.96%の精度がAID上で0.49Mパラメータで達成されている。
関連論文リスト
- EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition [0.0]
本稿では,ビデオにおける行動認識のための効果的なポーズ駆動型注意誘導型マルチモーダル行動認識(EPAM-Net)を提案する。
具体的には、RGBビデオとそのスケルトンシーケンスから、ポーズストリームとネットワーク時間特徴の両方にX3Dネットワークを適用した。
我々のモデルはFLOPの6.2-9.9-x削減(浮動小数点演算、乗算加算数)とネットワークパラメータの9-9.6倍削減を提供する。
論文 参考訳(メタデータ) (2024-08-10T03:15:24Z) - LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文 参考訳(メタデータ) (2024-04-21T13:29:42Z) - Deep Axial Hypercomplex Networks [1.370633147306388]
近年の研究では,超複雑ネットワークによる表現能力の向上が図られている。
本稿では、四元数2D畳み込み加群を2つの連続ベクトルマップ1D畳み込み加群に分解することで、このコストを削減する。
両ネットワークを組み込んで提案した超複素ネットワークは, 深部軸超複素ネットワークを構築するために構築可能な新しいアーキテクチャである。
論文 参考訳(メタデータ) (2023-01-11T18:31:00Z) - Lightweight Salient Object Detection in Optical Remote-Sensing Images
via Semantic Matching and Edge Alignment [61.45639694373033]
セマンティックマッチングとエッジアライメントに基づく光リモートセンシング画像(ORSI-SOD)のための新しい軽量ネットワークSeaNetを提案する。
具体的には、機能抽出のための軽量MobileNet-V2、高レベルの機能のための動的セマンティックマッチングモジュール(DSMM)、推論のためのポータブルデコーダが含まれる。
論文 参考訳(メタデータ) (2023-01-07T04:33:51Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。