論文の概要: WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for
Fast Multispectral Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2308.01042v1
- Date: Wed, 2 Aug 2023 09:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 13:31:03.267549
- Title: WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for
Fast Multispectral Pedestrian Detection
- Title(参考訳): WCCNet:マルチスペクトルペデストリアン検出のためのクロスモーダル再構成融合を用いたウェーブレット統合CNN
- Authors: Xingjian Wang, Li Chai, Jiming Chen, Zhiguo Shi
- Abstract要約: 我々は、異なるスペクトルのリッチな特徴をより少ない計算量で差分抽出できる WCCNet という新しいフレームワークを提案する。
よく抽出された特徴に基づき、我々はクロスモーダル再配置核融合モジュール(CMRF)を精巧に設計する。
我々はKAISTおよびFLIRベンチマークの総合評価を行い、WCCNetは計算効率と競争精度で最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 16.43119521684829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral pedestrian detection achieves better visibility in challenging
conditions and thus has a broad application in various tasks, for which both
the accuracy and computational cost are of paramount importance. Most existing
approaches treat RGB and infrared modalities equally, typically adopting two
symmetrical CNN backbones for multimodal feature extraction, which ignores the
substantial differences between modalities and brings great difficulty for the
reduction of the computational cost as well as effective crossmodal fusion. In
this work, we propose a novel and efficient framework named WCCNet that is able
to differentially extract rich features of different spectra with lower
computational complexity and semantically rearranges these features for
effective crossmodal fusion. Specifically, the discrete wavelet transform (DWT)
allowing fast inference and training speed is embedded to construct a
dual-stream backbone for efficient feature extraction. The DWT layers of WCCNet
extract frequency components for infrared modality, while the CNN layers
extract spatial-domain features for RGB modality. This methodology not only
significantly reduces the computational complexity, but also improves the
extraction of infrared features to facilitate the subsequent crossmodal fusion.
Based on the well extracted features, we elaborately design the crossmodal
rearranging fusion module (CMRF), which can mitigate spatial misalignment and
merge semantically complementary features of spatially-related local regions to
amplify the crossmodal complementary information. We conduct comprehensive
evaluations on KAIST and FLIR benchmarks, in which WCCNet outperforms
state-of-the-art methods with considerable computational efficiency and
competitive accuracy. We also perform the ablation study and analyze thoroughly
the impact of different components on the performance of WCCNet.
- Abstract(参考訳): マルチスペクトル歩行者検出は困難な状況下での視認性が向上し、精度と計算コストの両方が最重要となる様々なタスクに広く応用される。
既存のアプローチのほとんどはrgbと赤外線モダリティを等しく扱うが、一般的には2つの対称cnnバックボーンをマルチモーダル特徴抽出に採用しており、モダリティ間の実質的な差を無視し、計算コストの削減と効果的なクロスモーダル融合に大きな困難をもたらす。
本研究では,異なるスペクトルのリッチな特徴をより少ない計算量で抽出し,これらの特徴を効果的に相互モーダル融合のために意味的に再構成できるWCCNetというフレームワークを提案する。
具体的には、高速な推論とトレーニング速度を実現する離散ウェーブレット変換(DWT)を組み込んで、効率的な特徴抽出のためのデュアルストリームバックボーンを構築する。
WCCNetのDWT層は赤外線モードの周波数成分を抽出し、CNN層はRGBモードの空間領域特徴を抽出する。
この手法は計算複雑性を著しく低減するだけでなく、赤外線特徴の抽出を改善し、その後のクロスモーダル融合を促進する。
抽出された特徴に基づき,空間的不一致を緩和し,空間的関連領域の意味的に補完的な特徴をマージし,クロスモーダル補完情報を増幅するクロスモーダル再配置融合モジュール(cmrf)を精巧に設計する。
我々はKAISTおよびFLIRベンチマークの総合評価を行い、WCCNetは計算効率と競争精度で最先端の手法より優れていることを示す。
また, アブレーション研究を行い, wccnetの性能に及ぼす各種成分の影響を徹底的に解析した。
関連論文リスト
- CDXFormer: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory [3.119836924407993]
我々は,XLSTMに基づく空間拡張層であるコアコンポーネントを備えたCDXFormerを提案する。
我々は,意味的精度の高い深層機能用にカスタマイズされたクロステンポラルグローバルパーセプトロンを組み込んだ,スケール特異的な特徴エンハンサー層を導入する。
また,グローバルな変化表現と応答を段階的に相互作用するクロススケール・インタラクティブ・フュージョンモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:22:14Z) - CSFNet: A Cosine Similarity Fusion Network for Real-Time RGB-X Semantic Segmentation of Driving Scenes [0.0]
マルチモーダルなセマンティックセグメンテーション手法は、高い計算複雑性と低い推論速度に悩まされる。
本稿では,リアルタイムRGB-XセマンティックセマンティックセグメンテーションモデルとしてCosine similarity Fusion Network (CSFNet)を提案する。
CSFNetは最先端の手法と競合する精度を持ち、速度に関しては最先端の手法である。
論文 参考訳(メタデータ) (2024-07-01T14:34:32Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Spatio-channel Attention Blocks for Cross-modal Crowd Counting [3.441021278275805]
CSCA(Cross-modal Spatio-Channel Attention)ブロックは、任意のモジュラリティ固有のアーキテクチャに容易に統合できる。
実験で提案したブロックは, 種々のバックボーンネットワークにおいて, 顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-10-19T09:05:00Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Multi-level Cross-modal Interaction Network for RGB-D Salient Object
Detection [3.581367375462018]
我々は,RGB-D を用いたサルエントオブジェクト検出(SOD)のためのMCINet(Multi-level Cross-modal Interaction Network)を提案する。
MCI-Netには2つの重要なコンポーネントがある: 1)RGB画像と深度キューの高レベルな特徴を学習するために使用されるクロスモーダルな特徴学習ネットワーク、2)SOD性能を高めるためにマルチレベルなクロスモーダル機能を統合するマルチレベルな対話型統合ネットワーク。
論文 参考訳(メタデータ) (2020-07-10T02:21:02Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。