論文の概要: RGB-T Multi-Modal Crowd Counting Based on Transformer
- arxiv url: http://arxiv.org/abs/2301.03033v1
- Date: Sun, 8 Jan 2023 12:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:59:08.099020
- Title: RGB-T Multi-Modal Crowd Counting Based on Transformer
- Title(参考訳): 変圧器を用いたRGB-Tマルチモーダル群カウント
- Authors: Zhengyi Liu, Wei Wu, Yacheng Tan, Guanghui Zhang
- Abstract要約: カウント誘導型マルチモーダルフュージョンとモーダル誘導型カウントエンハンスメントを用いて、優れた性能を実現する。
公開RGBT-CCデータセットによる実験により,本手法が最先端の結果を更新することが示された。
- 参考スコア(独自算出の注目度): 8.870454119294003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting aims to estimate the number of persons in a scene. Most
state-of-the-art crowd counting methods based on color images can't work well
in poor illumination conditions due to invisible objects. With the widespread
use of infrared cameras, crowd counting based on color and thermal images is
studied. Existing methods only achieve multi-modal fusion without count
objective constraint. To better excavate multi-modal information, we use
count-guided multi-modal fusion and modal-guided count enhancement to achieve
the impressive performance. The proposed count-guided multi-modal fusion module
utilizes a multi-scale token transformer to interact two-modal information
under the guidance of count information and perceive different scales from the
token perspective. The proposed modal-guided count enhancement module employs
multi-scale deformable transformer decoder structure to enhance one modality
feature and count information by the other modality. Experiment in public
RGBT-CC dataset shows that our method refreshes the state-of-the-art results.
https://github.com/liuzywen/RGBTCC
- Abstract(参考訳): 群衆カウントは、シーン内の人の数を見積もることを目的としています。
カラー画像に基づく現在最先端の群衆カウント手法は、見えない物体による照明条件の悪さではうまく機能しない。
赤外線カメラの普及により,カラー画像とサーマル画像に基づく群衆のカウントが研究されている。
既存の手法は、目的制約をカウントせずにマルチモーダル融合を実現する。
マルチモーダル情報の抽出性を向上させるために,カウント誘導マルチモーダルフュージョンとモーダル誘導カウントエンハンスメントを用いて,印象的な性能を実現する。
提案するカウント誘導マルチモーダル融合モジュールは,マルチスケールトークントランスフォーマを使用して,カウント情報の指導の下で2モーダル情報を対話し,トークンの観点から異なるスケールを知覚する。
提案手法では,マルチスケール変形可能なトランスデコーダ構造を採用し,一方のモダリティ特性と他方のモダリティによるカウント情報を強化した。
公開RGBT-CCデータセットによる実験により,本手法が最先端の結果を更新することが示された。
https://github.com/liuzywen/RGBTCC
関連論文リスト
- Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。
本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。
我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文 参考訳(メタデータ) (2024-07-10T10:13:11Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting [40.4816930622052]
マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群カウントネットワークを提案する。
エンコーダ部では、マルチアテンション・フュージョン(MAF)モジュールを2つのモード固有分岐の異なるステージに埋め込み、クロスモーダル・フュージョンを行う。
2つの人気のあるデータセットに対する大規模な実験は、提案したMAFNetがRGB-Tの群衆カウントに有効であることを示している。
論文 参考訳(メタデータ) (2022-08-14T02:42:09Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal
Fusion with Depth Guidance [49.94504248096527]
異なるモードの特徴表現をモデル化するためのDGONet(Depth-Guided Outpainting Network)を提案する。
1)マルチモーダル学習モジュールは、異なるモーダル特性の観点から独自の深さとRGBの特徴表現を生成する。
我々は、不明瞭な輪郭を増進し、信頼性の高いコンテンツ生成を迅速化するために、クロスモーダルロスとエッジロスからなる追加の制約戦略を特別に設計する。
論文 参考訳(メタデータ) (2022-04-12T06:06:50Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT
Benchmark for Crowd Counting [109.32927895352685]
RGBT Crowd Counting (RGBT-CC) ベンチマークは2,030対のRGB熱画像と138,389人の注釈付き画像を含む。
マルチモーダルな群集カウントを容易にするために,クロスモーダルな協調表現学習フレームワークを提案する。
RGBT-CCベンチマークで行った実験は、RGBTの群集カウントにおけるフレームワークの有効性を示した。
論文 参考訳(メタデータ) (2020-12-08T16:18:29Z) - Multi-interactive Dual-decoder for RGB-thermal Salient Object Detection [37.79290349045164]
RGB-thermal Salient Object Detection (SOD)は、可視画像とそれに対応する熱赤外画像の共通する顕著な領域を分割することを目的としている。
既存の手法では、異なるモダリティの相補性のポテンシャルや、画像内容の多種類の手がかりを十分に探求し、活用することができない。
高精度なRGBT SODのためのマルチタイプインタラクションをマイニングし,モデル化するためのマルチインタラクティブなデュアルデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-05T16:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。