論文の概要: Spatio-channel Attention Blocks for Cross-modal Crowd Counting
- arxiv url: http://arxiv.org/abs/2210.10392v1
- Date: Wed, 19 Oct 2022 09:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:48:51.342424
- Title: Spatio-channel Attention Blocks for Cross-modal Crowd Counting
- Title(参考訳): クロスモーダルオーディエンスカウントのための空間チャネルアテンションブロック
- Authors: Youjia Zhang, Soyun Choi, and Sungeun Hong
- Abstract要約: CSCA(Cross-modal Spatio-Channel Attention)ブロックは、任意のモジュラリティ固有のアーキテクチャに容易に統合できる。
実験で提案したブロックは, 種々のバックボーンネットワークにおいて, 顕著な性能向上を示した。
- 参考スコア(独自算出の注目度): 3.441021278275805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting research has made significant advancements in real-world
applications, but it remains a formidable challenge in cross-modal settings.
Most existing methods rely solely on the optical features of RGB images,
ignoring the feasibility of other modalities such as thermal and depth images.
The inherently significant differences between the different modalities and the
diversity of design choices for model architectures make cross-modal crowd
counting more challenging. In this paper, we propose Cross-modal Spatio-Channel
Attention (CSCA) blocks, which can be easily integrated into any
modality-specific architecture. The CSCA blocks first spatially capture global
functional correlations among multi-modality with less overhead through
spatial-wise cross-modal attention. Cross-modal features with spatial attention
are subsequently refined through adaptive channel-wise feature aggregation. In
our experiments, the proposed block consistently shows significant performance
improvement across various backbone networks, resulting in state-of-the-art
results in RGB-T and RGB-D crowd counting.
- Abstract(参考訳): クラウドカウント研究は現実世界のアプリケーションで大きな進歩を遂げてきたが、クロスモーダル環境では依然として大きな課題である。
既存の手法のほとんどはRGB画像の光学的特徴にのみ依存しており、熱画像や深度画像のような他のモードの可能性を無視している。
異なるモダリティとモデルアーキテクチャのデザイン選択の多様性の間に本質的に重要な違いがあるため、クロスモーダルな群衆の数え方がより困難になる。
本稿では,任意のモダリティ固有のアーキテクチャに容易に組み込むことができるクロスモーダル・スパパ・チャネル・アテンション(CSCA)ブロックを提案する。
CSCAブロックは、まず、空間的なクロスモーダルな注意を通して、オーバーヘッドの少ないマルチモーダル間のグローバルな機能的相関を空間的に捉える。
空間的注意を伴うクロスモーダルな特徴は、適応的なチャネルワイドな特徴集約によって改善される。
実験の結果,提案ブロックは様々なバックボーンネットワークにおいて高い性能向上を示し,その結果,RGB-TとRGB-Dの群衆カウントが実現した。
関連論文リスト
- Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for
Fast Multispectral Pedestrian Detection [16.43119521684829]
我々は、異なるスペクトルのリッチな特徴をより少ない計算量で差分抽出できる WCCNet という新しいフレームワークを提案する。
よく抽出された特徴に基づき、我々はクロスモーダル再配置核融合モジュール(CMRF)を精巧に設計する。
我々はKAISTおよびFLIRベンチマークの総合評価を行い、WCCNetは計算効率と競争精度で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-02T09:35:21Z) - MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting [40.4816930622052]
マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群カウントネットワークを提案する。
エンコーダ部では、マルチアテンション・フュージョン(MAF)モジュールを2つのモード固有分岐の異なるステージに埋め込み、クロスモーダル・フュージョンを行う。
2つの人気のあるデータセットに対する大規模な実験は、提案したMAFNetがRGB-Tの群衆カウントに有効であることを示している。
論文 参考訳(メタデータ) (2022-08-14T02:42:09Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z) - Cross-SRN: Structure-Preserving Super-Resolution Network with Cross
Convolution [64.76159006851151]
低解像度 (LR) 画像から高解像度 (SR) 画像への復元は, 正確かつ明確である。
既存のディープラーニングは、画像の固有の構造情報をほとんど無視する。
構造情報の探索と保存を行う階層的特徴利用ネットワークを設計する。
論文 参考訳(メタデータ) (2022-01-05T05:15:01Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z) - Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT
Benchmark for Crowd Counting [109.32927895352685]
RGBT Crowd Counting (RGBT-CC) ベンチマークは2,030対のRGB熱画像と138,389人の注釈付き画像を含む。
マルチモーダルな群集カウントを容易にするために,クロスモーダルな協調表現学習フレームワークを提案する。
RGBT-CCベンチマークで行った実験は、RGBTの群集カウントにおけるフレームワークの有効性を示した。
論文 参考訳(メタデータ) (2020-12-08T16:18:29Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。