論文の概要: WCCNet: Wavelet-context Cooperative Network for Efficient Multispectral Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2308.01042v2
- Date: Fri, 24 Oct 2025 16:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.69089
- Title: WCCNet: Wavelet-context Cooperative Network for Efficient Multispectral Pedestrian Detection
- Title(参考訳): WCCNet:マルチスペクトルペデストリアン検出のためのウェーブレットコンテキスト協調ネットワーク
- Authors: Xingjian Wang, Li Chai, Jiming Chen, Zhiguo Shi,
- Abstract要約: We propose a novel framework named Wavelet-context Cooperative Network (WCCNet)。
WCCNetは、計算複雑性の低い異なるスペクトルの相補的特徴を微分的に抽出することができる。
クロスモーダル相互情報を増幅するために、クロスモーダル再構成融合モジュール(CMRF)を精巧に設計する。
- 参考スコア(独自算出の注目度): 29.43086971740499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral pedestrian detection achieves better visibility in challenging conditions and thus is essential to autonomous driving, for which both the accuracy and computational cost are of paramount importance. Most existing approaches treat RGB and infrared modalities equally. They typically adopt two symmetrical backbones for multimodal feature extraction, which ignore the substantial differences between modalities and bring great difficulty for the reduction of the computational cost as well as effective crossmodal fusion. In this work, we propose a novel and efficient framework named Wavelet-context Cooperative Network (WCCNet) that is able to differentially extract complementary features of different spectra with lower computational complexity, and further fuse these diverse features based on their spatially relevant crossmodal semantics. In particular, WCCNet simultaneously explore wavelet context and RGB textures within a cooperative dual-stream backbone, which is composed of adaptive discrete wavelet transform (ADWT) layers and heavyweight neural layers. The ADWT layers extract frequency components for infrared modality, while neural layers handle RGB modality features. Since ADWT layers are lightweight and extract complementary features, this cooperative structure not only significantly reduces the computational complexity, but also facilitates the subsequent crossmodal fusion. To further fuse these infrared and RGB features with significant semantic differences, we elaborately design the crossmodal rearranging fusion module (CMRF), which can mitigate spatial misalignment and merge semantically complementary features in spatially-related local regions to amplify the crossmodal reciprocal information. Experimental results on KAIST and FLIR benchmarks indicate that WCCNet outperforms state-of-the-art methods with considerable efficiency and competitive accuracy.
- Abstract(参考訳): 多スペクトル歩行者検出は、困難な状況下での視認性が向上し、精度と計算コストの両方が最重要となる自律運転に不可欠である。
既存のアプローチのほとんどは、RGBと赤外線モダリティを等しく扱う。
彼らは通常、2つの対称なバックボーンをマルチモーダル特徴抽出に適用し、モダリティの実質的な違いを無視し、計算コストの削減と効果的なクロスモーダル融合を困難にしている。
本研究では,ウェーブレット・コンテクスト協調ネットワーク (WCCNet) という,異なるスペクトルの補的特徴をより少ない計算量で差分抽出し,空間的に関係のあるクロスモーダル・セマンティクスに基づいてこれらの特徴を融合する,新しい,効率的なフレームワークを提案する。
特に、WCCNetは、適応離散ウェーブレット変換(ADWT)層と重み付きニューラルネットワーク層からなる、協調的な二重ストリームバックボーン内のウェーブレットコンテキストとRGBテクスチャを同時に探索する。
ADWT層は赤外線モダリティの周波数成分を抽出し、ニューラル層はRGBモダリティの特徴を扱う。
ADWT層は軽量であり、相補的な特徴を抽出するので、この協調構造は計算複雑性を著しく低減するだけでなく、その後のクロスモーダル融合を促進する。
空間的不整合を緩和し、空間的関連地域における意味的相補的特徴を緩和し、相互の相互情報を増幅するクロスモーダル再構成融合モジュール(CMRF)を精巧に設計する。
KAISTとFLIRのベンチマーク実験の結果、WCCNetは最先端の手法よりも高い効率と競争精度で性能を発揮することが示された。
関連論文リスト
- Residual Prior-driven Frequency-aware Network for Image Fusion [6.90874640835234]
画像融合は、高品質な融合画像を生成するために、モダリティにまたがる相補的な情報を統合することを目的としている。
本稿ではRPFNetと呼ばれる残差優先周波数対応ネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:48:00Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - MSCA-Net:Multi-Scale Context Aggregation Network for Infrared Small Target Detection [0.0]
本稿では、3つのキーコンポーネントを統合したMSCA-Netという新しいネットワークアーキテクチャを提案する。
MSEDAは、異なるスケールにわたる情報を適応的に集約するために、マルチスケールのフュージョンアテンション機構を使用している。
PCBAMは相関行列に基づく戦略によりグローバル特徴と局所特徴の相関を捉える。
論文 参考訳(メタデータ) (2025-03-21T14:42:31Z) - CDXFormer: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory [3.119836924407993]
我々は,XLSTMに基づく空間拡張層であるコアコンポーネントを備えたCDXFormerを提案する。
我々は,意味的精度の高い深層機能用にカスタマイズされたクロステンポラルグローバルパーセプトロンを組み込んだ,スケール特異的な特徴エンハンサー層を導入する。
また,グローバルな変化表現と応答を段階的に相互作用するクロススケール・インタラクティブ・フュージョンモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:22:14Z) - CSFNet: A Cosine Similarity Fusion Network for Real-Time RGB-X Semantic Segmentation of Driving Scenes [0.0]
マルチモーダルなセマンティックセグメンテーション手法は、高い計算複雑性と低い推論速度に悩まされる。
本稿では,リアルタイムRGB-XセマンティックセマンティックセグメンテーションモデルとしてCosine similarity Fusion Network (CSFNet)を提案する。
CSFNetは最先端の手法と競合する精度を持ち、速度に関しては最先端の手法である。
論文 参考訳(メタデータ) (2024-07-01T14:34:32Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Spatio-channel Attention Blocks for Cross-modal Crowd Counting [3.441021278275805]
CSCA(Cross-modal Spatio-Channel Attention)ブロックは、任意のモジュラリティ固有のアーキテクチャに容易に統合できる。
実験で提案したブロックは, 種々のバックボーンネットワークにおいて, 顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-10-19T09:05:00Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Multi-level Cross-modal Interaction Network for RGB-D Salient Object
Detection [3.581367375462018]
我々は,RGB-D を用いたサルエントオブジェクト検出(SOD)のためのMCINet(Multi-level Cross-modal Interaction Network)を提案する。
MCI-Netには2つの重要なコンポーネントがある: 1)RGB画像と深度キューの高レベルな特徴を学習するために使用されるクロスモーダルな特徴学習ネットワーク、2)SOD性能を高めるためにマルチレベルなクロスモーダル機能を統合するマルチレベルな対話型統合ネットワーク。
論文 参考訳(メタデータ) (2020-07-10T02:21:02Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。