論文の概要: A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification
- arxiv url: http://arxiv.org/abs/2203.16325v1
- Date: Tue, 29 Mar 2022 09:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 13:21:51.332582
- Title: A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification
- Title(参考訳): 空中シーン分類のための多段二重融合コンベネット
- Authors: Jingjun Yi and Beichen Zhou
- Abstract要約: マルチステージ二重核融合ネットワーク (MSDF-Net) を開発した。
MSDF-NetはDFblockを備えた多段構造で構成されている。
広範に使用されている3つの航空シーン分類ベンチマークで実験が行われた。
- 参考スコア(独自算出の注目度): 4.061135251278187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deep learning based methods effectively prompt the performance of
aerial scene classification. However, due to the large amount of parameters and
computational cost, it is rather difficult to apply these methods to multiple
real-time remote sensing applications such as on-board data preception on
drones and satellites. In this paper, we address this task by developing a
light-weight ConvNet named multi-stage duplex fusion network (MSDF-Net). The
key idea is to use parameters as little as possible while obtaining as strong
as possible scene representation capability. To this end, a residual-dense
duplex fusion strategy is developed to enhance the feature propagation while
re-using parameters as much as possible, and is realized by our duplex fusion
block (DFblock). Specifically, our MSDF-Net consists of multi-stage structures
with DFblock. Moreover, duplex semantic aggregation (DSA) module is developed
to mine the remote sensing scene information from extracted convolutional
features, which also contains two parallel branches for semantic description.
Extensive experiments are conducted on three widely-used aerial scene
classification benchmarks, and reflect that our MSDF-Net can achieve a
competitive performance against the recent state-of-art while reducing up to
80% parameter numbers. Particularly, an accuracy of 92.96% is achieved on AID
with only 0.49M parameters.
- Abstract(参考訳): 既存のディープラーニングに基づく手法は,航空シーン分類の性能を効果的に促進する。
しかし、大量のパラメータと計算コストのため、ドローンや衛星上でのオンボードデータプリセプションのような複数のリアルタイムリモートセンシングアプリケーションにこれらの手法を適用することは比較的困難である。
本稿では,マルチステージ二重核融合ネットワーク (MSDF-Net) という軽量な ConvNet を開発した。
キーとなるアイデアは、可能な限り強力なシーン表現能力を得ながら、パラメータを可能な限り少なく使用することです。
この目的のために, パラメータを再使用しながら特徴伝播を極力高めるために, 残留密度二重核融合戦略を開発し, 我々の二重核融合ブロック(DFblock)により実現した。
具体的には,MSDF-NetはDFブロックを持つ多段構造からなる。
さらに, 抽出された畳み込み特徴からリモートセンシングシーン情報を抽出し, 意味記述のための2つの並列分岐を含むdsaモジュールを開発した。
広範に利用されている3つの航空シーン分類ベンチマークで大規模な実験を行い、MSDF-Netは、最新の最先端技術に対して最大80%のパラメータ数を削減しながら、競争性能を達成可能であることを反映した。
特に、92.96%の精度がAID上で0.49Mパラメータで達成されている。
関連論文リスト
- DynStatF: An Efficient Feature Fusion Strategy for LiDAR 3D Object
Detection [21.573784416916546]
複数の前のフレームでLiDAR入力を拡張することで、よりリッチなセマンティック情報が得られる。
複数フレームのクラウド化された点雲は、動きのぼやけや不正確な点投影による正確な位置情報を損なう可能性がある。
マルチフレームで提供されるリッチなセマンティック情報を強化する機能融合戦略DynStaFを提案する。
論文 参考訳(メタデータ) (2023-05-24T15:00:01Z) - Deep Axial Hypercomplex Networks [1.370633147306388]
近年の研究では,超複雑ネットワークによる表現能力の向上が図られている。
本稿では、四元数2D畳み込み加群を2つの連続ベクトルマップ1D畳み込み加群に分解することで、このコストを削減する。
両ネットワークを組み込んで提案した超複素ネットワークは, 深部軸超複素ネットワークを構築するために構築可能な新しいアーキテクチャである。
論文 参考訳(メタデータ) (2023-01-11T18:31:00Z) - Lightweight Salient Object Detection in Optical Remote-Sensing Images
via Semantic Matching and Edge Alignment [61.45639694373033]
セマンティックマッチングとエッジアライメントに基づく光リモートセンシング画像(ORSI-SOD)のための新しい軽量ネットワークSeaNetを提案する。
具体的には、機能抽出のための軽量MobileNet-V2、高レベルの機能のための動的セマンティックマッチングモジュール(DSMM)、推論のためのポータブルデコーダが含まれる。
論文 参考訳(メタデータ) (2023-01-07T04:33:51Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。