論文の概要: Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT
Benchmark for Crowd Counting
- arxiv url: http://arxiv.org/abs/2012.04529v2
- Date: Tue, 6 Apr 2021 03:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:51:33.665462
- Title: Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT
Benchmark for Crowd Counting
- Title(参考訳): 集団カウントのためのクロスモーダル協調表現学習と大規模RGBTベンチマーク
- Authors: Lingbo Liu, Jiaqi Chen, Hefeng Wu, Guanbin Li, Chenglong Li, Liang Lin
- Abstract要約: RGBT Crowd Counting (RGBT-CC) ベンチマークは2,030対のRGB熱画像と138,389人の注釈付き画像を含む。
マルチモーダルな群集カウントを容易にするために,クロスモーダルな協調表現学習フレームワークを提案する。
RGBT-CCベンチマークで行った実験は、RGBTの群集カウントにおけるフレームワークの有効性を示した。
- 参考スコア(独自算出の注目度): 109.32927895352685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting is a fundamental yet challenging task, which desires rich
information to generate pixel-wise crowd density maps. However, most previous
methods only used the limited information of RGB images and cannot well
discover potential pedestrians in unconstrained scenarios. In this work, we
find that incorporating optical and thermal information can greatly help to
recognize pedestrians. To promote future researches in this field, we introduce
a large-scale RGBT Crowd Counting (RGBT-CC) benchmark, which contains 2,030
pairs of RGB-thermal images with 138,389 annotated people. Furthermore, to
facilitate the multimodal crowd counting, we propose a cross-modal
collaborative representation learning framework, which consists of multiple
modality-specific branches, a modality-shared branch, and an Information
Aggregation-Distribution Module (IADM) to capture the complementary information
of different modalities fully. Specifically, our IADM incorporates two
collaborative information transfers to dynamically enhance the modality-shared
and modality-specific representations with a dual information propagation
mechanism. Extensive experiments conducted on the RGBT-CC benchmark demonstrate
the effectiveness of our framework for RGBT crowd counting. Moreover, the
proposed approach is universal for multimodal crowd counting and is also
capable to achieve superior performance on the ShanghaiTechRGBD dataset.
Finally, our source code and benchmark are released at
{\url{http://lingboliu.com/RGBT_Crowd_Counting.html}}.
- Abstract(参考訳): 群衆計数は基本的な課題でありながら難しい課題であり、リッチな情報を求めて、ピクセル単位の群衆密度マップを生成する。
しかし、従来の手法ではRGB画像の限られた情報しか利用せず、制約のないシナリオでは潜在的な歩行者を十分に発見できない。
本研究では,光学的および熱的情報を組み込むことで歩行者の認識に大いに役立つことを見出した。
この分野での今後の研究を促進するために,138,389人の注釈を付けた2,030対のRGB-熱画像を含む大規模RGBT Crowd Counting (RGBT-CC)ベンチマークを導入する。
さらに,マルチモーダル群集カウントを容易にするために,複数のモーダル特異的分岐,モジュール共有分岐,情報集約モジュール(IADM)から構成されるクロスモーダル協調表現学習フレームワークを提案する。
具体的には,2つの協調的な情報伝達を組み込んで,2つの情報伝達機構によるモダリティ共有表現とモダリティ特化表現を動的に強化する。
RGBT-CCベンチマークで行った大規模な実験により,RGBTの群集カウントに対するフレームワークの有効性が示された。
さらに,提案手法はマルチモーダル群数に普遍的であり,上海テクニックgbdデータセットでも優れた性能を実現することができる。
最後に、ソースコードとベンチマークは {\url{http://lingboliu.com/RGBT_Crowd_Counting.html}}でリリースされます。
関連論文リスト
- Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。
本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。
我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文 参考訳(メタデータ) (2024-07-10T10:13:11Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided
Learning [37.067605349559]
本稿ではProFormerと呼ばれる新しいプログレッシブフュージョントランスを提案する。
単一のモダリティ情報をマルチモーダル表現に統合し、堅牢なRGBT追跡を行う。
ProFormerは、RGBT210、RGBT234、LasHeR、VTUAVデータセットに新しい最先端パフォーマンスを設定する。
論文 参考訳(メタデータ) (2023-03-26T16:55:58Z) - RGB-T Multi-Modal Crowd Counting Based on Transformer [8.870454119294003]
カウント誘導型マルチモーダルフュージョンとモーダル誘導型カウントエンハンスメントを用いて、優れた性能を実現する。
公開RGBT-CCデータセットによる実験により,本手法が最先端の結果を更新することが示された。
論文 参考訳(メタデータ) (2023-01-08T12:59:52Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting [40.4816930622052]
マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群カウントネットワークを提案する。
エンコーダ部では、マルチアテンション・フュージョン(MAF)モジュールを2つのモード固有分岐の異なるステージに埋め込み、クロスモーダル・フュージョンを行う。
2つの人気のあるデータセットに対する大規模な実験は、提案したMAFNetがRGB-Tの群衆カウントに有効であることを示している。
論文 参考訳(メタデータ) (2022-08-14T02:42:09Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Multi-interactive Dual-decoder for RGB-thermal Salient Object Detection [37.79290349045164]
RGB-thermal Salient Object Detection (SOD)は、可視画像とそれに対応する熱赤外画像の共通する顕著な領域を分割することを目的としている。
既存の手法では、異なるモダリティの相補性のポテンシャルや、画像内容の多種類の手がかりを十分に探求し、活用することができない。
高精度なRGBT SODのためのマルチタイプインタラクションをマイニングし,モデル化するためのマルチインタラクティブなデュアルデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-05T16:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。