Fugu-MT 論文翻訳(概要): A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification

論文の概要: A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification

arxiv url: http://arxiv.org/abs/2203.16325v1
Date: Tue, 29 Mar 2022 09:27:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-31 13:21:51.332582
Title: A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification
Title（参考訳）: 空中シーン分類のための多段二重融合コンベネット
Authors: Jingjun Yi and Beichen Zhou
Abstract要約: マルチステージ二重核融合ネットワーク (MSDF-Net) を開発した。 MSDF-NetはDFblockを備えた多段構造で構成されている。広範に使用されている3つの航空シーン分類ベンチマークで実験が行われた。
参考スコア（独自算出の注目度）: 4.061135251278187
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing deep learning based methods effectively prompt the performance of aerial scene classification. However, due to the large amount of parameters and computational cost, it is rather difficult to apply these methods to multiple real-time remote sensing applications such as on-board data preception on drones and satellites. In this paper, we address this task by developing a light-weight ConvNet named multi-stage duplex fusion network (MSDF-Net). The key idea is to use parameters as little as possible while obtaining as strong as possible scene representation capability. To this end, a residual-dense duplex fusion strategy is developed to enhance the feature propagation while re-using parameters as much as possible, and is realized by our duplex fusion block (DFblock). Specifically, our MSDF-Net consists of multi-stage structures with DFblock. Moreover, duplex semantic aggregation (DSA) module is developed to mine the remote sensing scene information from extracted convolutional features, which also contains two parallel branches for semantic description. Extensive experiments are conducted on three widely-used aerial scene classification benchmarks, and reflect that our MSDF-Net can achieve a competitive performance against the recent state-of-art while reducing up to 80% parameter numbers. Particularly, an accuracy of 92.96% is achieved on AID with only 0.49M parameters.
Abstract（参考訳）: 既存のディープラーニングに基づく手法は,航空シーン分類の性能を効果的に促進する。しかし、大量のパラメータと計算コストのため、ドローンや衛星上でのオンボードデータプリセプションのような複数のリアルタイムリモートセンシングアプリケーションにこれらの手法を適用することは比較的困難である。本稿では,マルチステージ二重核融合ネットワーク (MSDF-Net) という軽量な ConvNet を開発した。キーとなるアイデアは、可能な限り強力なシーン表現能力を得ながら、パラメータを可能な限り少なく使用することです。この目的のために, パラメータを再使用しながら特徴伝播を極力高めるために, 残留密度二重核融合戦略を開発し, 我々の二重核融合ブロック(DFblock)により実現した。具体的には,MSDF-NetはDFブロックを持つ多段構造からなる。さらに, 抽出された畳み込み特徴からリモートセンシングシーン情報を抽出し, 意味記述のための2つの並列分岐を含むdsaモジュールを開発した。広範に利用されている3つの航空シーン分類ベンチマークで大規模な実験を行い、MSDF-Netは、最新の最先端技術に対して最大80%のパラメータ数を削減しながら、競争性能を達成可能であることを反映した。特に、92.96%の精度がAID上で0.49Mパラメータで達成されている。

関連論文リスト

Cross Spatial Temporal Fusion Attention for Remote Sensing Object Detection via Image Feature Matching [15.57849268814515]
参照画像とクエリ画像の両方で独立に検出されたスケール不変キーポイントを統合することで特徴表現を強化する機構を提案する。まず、複数の画像領域からの情報を同時に活用する対応マップを作成し、次に、類似性マッチングプロセスを分類タスクとして再構成することで、特徴マッチングを改善する。改良された特徴マッチングの実用性を示すために,HRSC2016およびDOTAベンチマークデータセットを用いてオブジェクト検出タスクのCSTFを評価する。
論文参考訳（メタデータ） (2025-07-25T09:52:06Z)
Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文参考訳（メタデータ） (2025-05-07T19:37:20Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition [0.0]
本稿では,ビデオにおける行動認識のための効果的なポーズ駆動型注意誘導型マルチモーダル行動認識(EPAM-Net)を提案する。具体的には、RGBビデオとそのスケルトンシーケンスから、ポーズストリームとネットワーク時間特徴の両方にX3Dネットワークを適用した。我々のモデルはFLOPの6.2-9.9-x削減(浮動小数点演算、乗算加算数)とネットワークパラメータの9-9.6倍削減を提供する。
論文参考訳（メタデータ） (2024-08-10T03:15:24Z)
LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。 LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文参考訳（メタデータ） (2024-04-21T13:29:42Z)
Deep Axial Hypercomplex Networks [1.370633147306388]
近年の研究では,超複雑ネットワークによる表現能力の向上が図られている。本稿では、四元数2D畳み込み加群を2つの連続ベクトルマップ1D畳み込み加群に分解することで、このコストを削減する。両ネットワークを組み込んで提案した超複素ネットワークは, 深部軸超複素ネットワークを構築するために構築可能な新しいアーキテクチャである。
論文参考訳（メタデータ） (2023-01-11T18:31:00Z)
Lightweight Salient Object Detection in Optical Remote-Sensing Images via Semantic Matching and Edge Alignment [61.45639694373033]
セマンティックマッチングとエッジアライメントに基づく光リモートセンシング画像(ORSI-SOD)のための新しい軽量ネットワークSeaNetを提案する。具体的には、機能抽出のための軽量MobileNet-V2、高レベルの機能のための動的セマンティックマッチングモジュール(DSMM)、推論のためのポータブルデコーダが含まれる。
論文参考訳（メタデータ） (2023-01-07T04:33:51Z)
PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。 2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文参考訳（メタデータ） (2022-10-12T04:11:48Z)
SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文参考訳（メタデータ） (2022-07-10T08:25:47Z)
MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文参考訳（メタデータ） (2021-12-07T18:57:37Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)
Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。 SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文参考訳（メタデータ） (2021-02-21T12:01:48Z)
Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。 R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文参考訳（メタデータ） (2020-07-21T14:59:59Z)
Searching Central Difference Convolutional Networks for Face Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文参考訳（メタデータ） (2020-03-09T12:48:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。