論文の概要: WCCNet: Wavelet-context Cooperative Network for Efficient Multispectral Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2308.01042v2
- Date: Fri, 24 Oct 2025 16:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.69089
- Title: WCCNet: Wavelet-context Cooperative Network for Efficient Multispectral Pedestrian Detection
- Title(参考訳): WCCNet:マルチスペクトルペデストリアン検出のためのウェーブレットコンテキスト協調ネットワーク
- Authors: Xingjian Wang, Li Chai, Jiming Chen, Zhiguo Shi,
- Abstract要約: We propose a novel framework named Wavelet-context Cooperative Network (WCCNet)。
WCCNetは、計算複雑性の低い異なるスペクトルの相補的特徴を微分的に抽出することができる。
クロスモーダル相互情報を増幅するために、クロスモーダル再構成融合モジュール(CMRF)を精巧に設計する。
- 参考スコア(独自算出の注目度): 29.43086971740499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral pedestrian detection achieves better visibility in challenging conditions and thus is essential to autonomous driving, for which both the accuracy and computational cost are of paramount importance. Most existing approaches treat RGB and infrared modalities equally. They typically adopt two symmetrical backbones for multimodal feature extraction, which ignore the substantial differences between modalities and bring great difficulty for the reduction of the computational cost as well as effective crossmodal fusion. In this work, we propose a novel and efficient framework named Wavelet-context Cooperative Network (WCCNet) that is able to differentially extract complementary features of different spectra with lower computational complexity, and further fuse these diverse features based on their spatially relevant crossmodal semantics. In particular, WCCNet simultaneously explore wavelet context and RGB textures within a cooperative dual-stream backbone, which is composed of adaptive discrete wavelet transform (ADWT) layers and heavyweight neural layers. The ADWT layers extract frequency components for infrared modality, while neural layers handle RGB modality features. Since ADWT layers are lightweight and extract complementary features, this cooperative structure not only significantly reduces the computational complexity, but also facilitates the subsequent crossmodal fusion. To further fuse these infrared and RGB features with significant semantic differences, we elaborately design the crossmodal rearranging fusion module (CMRF), which can mitigate spatial misalignment and merge semantically complementary features in spatially-related local regions to amplify the crossmodal reciprocal information. Experimental results on KAIST and FLIR benchmarks indicate that WCCNet outperforms state-of-the-art methods with considerable efficiency and competitive accuracy.
- Abstract(参考訳): 多スペクトル歩行者検出は、困難な状況下での視認性が向上し、精度と計算コストの両方が最重要となる自律運転に不可欠である。
既存のアプローチのほとんどは、RGBと赤外線モダリティを等しく扱う。
彼らは通常、2つの対称なバックボーンをマルチモーダル特徴抽出に適用し、モダリティの実質的な違いを無視し、計算コストの削減と効果的なクロスモーダル融合を困難にしている。
本研究では,ウェーブレット・コンテクスト協調ネットワーク (WCCNet) という,異なるスペクトルの補的特徴をより少ない計算量で差分抽出し,空間的に関係のあるクロスモーダル・セマンティクスに基づいてこれらの特徴を融合する,新しい,効率的なフレームワークを提案する。
特に、WCCNetは、適応離散ウェーブレット変換(ADWT)層と重み付きニューラルネットワーク層からなる、協調的な二重ストリームバックボーン内のウェーブレットコンテキストとRGBテクスチャを同時に探索する。
ADWT層は赤外線モダリティの周波数成分を抽出し、ニューラル層はRGBモダリティの特徴を扱う。
ADWT層は軽量であり、相補的な特徴を抽出するので、この協調構造は計算複雑性を著しく低減するだけでなく、その後のクロスモーダル融合を促進する。
空間的不整合を緩和し、空間的関連地域における意味的相補的特徴を緩和し、相互の相互情報を増幅するクロスモーダル再構成融合モジュール(CMRF)を精巧に設計する。
KAISTとFLIRのベンチマーク実験の結果、WCCNetは最先端の手法よりも高い効率と競争精度で性能を発揮することが示された。
関連論文リスト
- Residual Prior-driven Frequency-aware Network for Image Fusion [6.90874640835234]
画像融合は、高品質な融合画像を生成するために、モダリティにまたがる相補的な情報を統合することを目的としている。
本稿ではRPFNetと呼ばれる残差優先周波数対応ネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:48:00Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - PAD: Phase-Amplitude Decoupling Fusion for Multi-Modal Land Cover Classification [49.37555541088792]
位相振幅デカップリング(PAD)は、位相(モダリティ共有)と振幅(モダリティ補完)を分離する周波数対応のフレームワークである。
この研究は、リモートセンシングにおける物理を意識したマルチモーダル融合の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-27T07:21:42Z) - MSCA-Net:Multi-Scale Context Aggregation Network for Infrared Small Target Detection [0.0]
本稿では、3つのキーコンポーネントを統合したMSCA-Netという新しいネットワークアーキテクチャを提案する。
MSEDAは、異なるスケールにわたる情報を適応的に集約するために、マルチスケールのフュージョンアテンション機構を使用している。
PCBAMは相関行列に基づく戦略によりグローバル特徴と局所特徴の相関を捉える。
論文 参考訳(メタデータ) (2025-03-21T14:42:31Z) - CDXFormer: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory [3.119836924407993]
我々は,XLSTMに基づく空間拡張層であるコアコンポーネントを備えたCDXFormerを提案する。
我々は,意味的精度の高い深層機能用にカスタマイズされたクロステンポラルグローバルパーセプトロンを組み込んだ,スケール特異的な特徴エンハンサー層を導入する。
また,グローバルな変化表現と応答を段階的に相互作用するクロススケール・インタラクティブ・フュージョンモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:22:14Z) - CSFNet: A Cosine Similarity Fusion Network for Real-Time RGB-X Semantic Segmentation of Driving Scenes [0.0]
マルチモーダルなセマンティックセグメンテーション手法は、高い計算複雑性と低い推論速度に悩まされる。
本稿では,リアルタイムRGB-XセマンティックセマンティックセグメンテーションモデルとしてCosine similarity Fusion Network (CSFNet)を提案する。
CSFNetは最先端の手法と競合する精度を持ち、速度に関しては最先端の手法である。
論文 参考訳(メタデータ) (2024-07-01T14:34:32Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Channel and Spatial Relation-Propagation Network for RGB-Thermal
Semantic Segmentation [10.344060599932185]
RGB-Thermal (RGB-T)セマンティックセマンティックセグメンテーションは、低照度条件を扱う上で大きな可能性を示している。
RGB-Tセマンティックセグメンテーションの鍵は、RGBと熱画像の相補的性質を効果的に活用することである。
論文 参考訳(メタデータ) (2023-08-24T03:43:47Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Spatio-channel Attention Blocks for Cross-modal Crowd Counting [3.441021278275805]
CSCA(Cross-modal Spatio-Channel Attention)ブロックは、任意のモジュラリティ固有のアーキテクチャに容易に統合できる。
実験で提案したブロックは, 種々のバックボーンネットワークにおいて, 顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-10-19T09:05:00Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Multi-level Cross-modal Interaction Network for RGB-D Salient Object
Detection [3.581367375462018]
我々は,RGB-D を用いたサルエントオブジェクト検出(SOD)のためのMCINet(Multi-level Cross-modal Interaction Network)を提案する。
MCI-Netには2つの重要なコンポーネントがある: 1)RGB画像と深度キューの高レベルな特徴を学習するために使用されるクロスモーダルな特徴学習ネットワーク、2)SOD性能を高めるためにマルチレベルなクロスモーダル機能を統合するマルチレベルな対話型統合ネットワーク。
論文 参考訳(メタデータ) (2020-07-10T02:21:02Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。