論文の概要: A Unified Multi-Task Learning Framework of Real-Time Drone Supervision
for Crowd Counting
- arxiv url: http://arxiv.org/abs/2202.03843v1
- Date: Tue, 8 Feb 2022 13:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 15:28:57.316295
- Title: A Unified Multi-Task Learning Framework of Real-Time Drone Supervision
for Crowd Counting
- Title(参考訳): クラウドカウントのためのリアルタイムドローン監督のための統合マルチタスク学習フレームワーク
- Authors: Siqi Gu and Zhichao Lian
- Abstract要約: このフレームワークの目的は、ドローンがリアルタイムで捉えた可視・熱赤外画像を含む2つのモードを融合させることである。
クラウドカウントのための統合型マルチタスク学習フレームワークを初めて提案する。
- 参考スコア(独自算出の注目度): 4.924126492174802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a novel Unified Multi-Task Learning Framework of Real-Time
Drone Supervision for Crowd Counting (MFCC) is proposed, which utilizes an
image fusion network architecture to fuse images from the visible and thermal
infrared image, and a crowd counting network architecture to estimate the
density map. The purpose of our framework is to fuse two modalities, including
visible and thermal infrared images captured by drones in real-time, that
exploit the complementary information to accurately count the dense population
and then automatically guide the flight of the drone to supervise the dense
crowd. To this end, we propose the unified multi-task learning framework for
crowd counting for the first time and re-design the unified training loss
functions to align the image fusion network and crowd counting network. We also
design the Assisted Learning Module (ALM) to fuse the density map feature to
the image fusion encoder process for learning the counting features. To improve
the accuracy, we propose the Extensive Context Extraction Module (ECEM) that is
based on a dense connection architecture to encode multi-receptive-fields
contextual information and apply the Multi-domain Attention Block (MAB) for
concerning the head region in the drone view. Finally, we apply the prediction
map to automatically guide the drones to supervise the dense crowd. The
experimental results on the DroneRGBT dataset show that, compared with the
existing methods, ours has comparable results on objective evaluations and an
easier training process.
- Abstract(参考訳): 本稿では、画像融合ネットワークアーキテクチャを用いて、可視・熱赤外画像からの画像を融合させる新しいMFCC(Unified Multi-Task Learning Framework of Real-Time Drone Supervision for Crowd Counting)と、密度マップを推定するクラウドカウントネットワークアーキテクチャを提案する。
このフレームワークの目的は、ドローンがリアルタイムで捉えた可視・熱赤外画像などの2つのモダリティを融合させ、その補完的な情報を利用して密集人口を正確にカウントし、ドローンの飛行を誘導して密集人口を監視することである。
そこで本研究では,クラウドカウントのための統合マルチタスク学習フレームワークを初めて提案し,画像融合ネットワークとクラウドカウントネットワークを整合させるために統合トレーニング損失関数を再設計する。
また,画像融合エンコーダプロセスに密度マップ特徴を融合し,計数特徴を学習するための補助学習モジュール(alm)を設計した。
そこで本研究では,マルチレセプティブ・フィールドのコンテキスト情報をエンコードするための密接な接続アーキテクチャに基づく拡張コンテキスト抽出モジュール(ecem)を提案し,マルチドメイン・アテンション・ブロック(mab)をドローン・ビューの頭部領域に適用する。
最後に、予測マップを用いてドローンを自動的に誘導し、密集した群衆を監督する。
DroneRGBTデータセットの実験結果から,既存の手法と比較して,客観的評価と学習プロセスの容易さに比較して結果が得られた。
関連論文リスト
- MCNet: A crowd denstity estimation network based on integrating multiscale attention module [5.841998426808197]
利用者の群集密度を自動的に分類するために,Metro Crowd density Estimation Network(MCNet)を提案する。
Integating Multi-scale Attention (IMA) モジュールは, セマンティック・クラウド・テクスチャの特徴を抽出するプレーン・クラシファイアの能力を高めるために提案されている。
ビデオフレームを直接処理し,群集密度推定のためのテクスチャ特徴を自動的に抽出する,軽量な群集テクスチャ特徴抽出ネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T13:40:44Z) - Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - Deep Rank-Consistent Pyramid Model for Enhanced Crowd Counting [48.15210212256114]
そこで我々は,大規模未ラベル画像を用いた観客数増大を目的としたDREAM(Deep Rank-consistEnt pyrAmid Model)を提案する。
さらに, トレーニング目的のために4000枚の画像を含む, 未ラベルのクラウドカウントデータセット, FUDAN-UCC を新たに収集した。
論文 参考訳(メタデータ) (2022-01-13T07:25:06Z) - TransMEF: A Transformer-Based Multi-Exposure Image Fusion Framework
using Self-Supervised Multi-Task Learning [5.926203312586108]
変換器を用いたマルチ露光画像融合フレームワークであるTransMEFを提案する。
このフレームワークはエンコーダ-デコーダネットワークに基づいており、大きな自然言語データセットでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-02T07:43:42Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial
System Applications [0.0]
多目的追跡(MOT)は、軍事防衛分野における状況認識の重要な構成要素である。
本稿では,リアルタイムな状況下での騒音に対応するために,頑健なオブジェクト追跡アーキテクチャを提案する。
本稿では,遅延空間における実体軌道の予測にシーケンス・ツー・シーケンス・アーキテクチャを用いる,Deep Extended Kalman Filter (DeepEKF) と呼ばれるキネマティックな予測モデルを提案する。
論文 参考訳(メタデータ) (2021-10-05T13:50:38Z) - Real-Time Multi-Modal Semantic Fusion on Unmanned Aerial Vehicles [28.504921333436837]
実時間意味推論と複数センサの融合のためのUAVシステムを提案する。
LiDARスキャンとRGBイメージのセマンティックセグメンテーション、およびRGBおよび熱画像のオブジェクト検出は、UAVコンピュータ上でオンラインで実行される。
都市環境における実環境実験における統合システムの評価を行った。
論文 参考訳(メタデータ) (2021-08-14T20:16:08Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Multi-Scale Context Aggregation Network with Attention-Guided for Crowd
Counting [23.336181341124746]
群衆カウントは、人の数を予測し、画像内の密度マップを生成することを目的としている。
さまざまなヘッドスケール、画像間の群衆分布の多様性、散らかった背景など、多くの課題がある。
本稿では,クラウドカウントのための単一カラムエンコーダ・デコーダアーキテクチャに基づくマルチスケールコンテキストアグリゲーションネットワーク(mscanet)を提案する。
論文 参考訳(メタデータ) (2021-04-06T02:24:06Z) - Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT
Benchmark for Crowd Counting [109.32927895352685]
RGBT Crowd Counting (RGBT-CC) ベンチマークは2,030対のRGB熱画像と138,389人の注釈付き画像を含む。
マルチモーダルな群集カウントを容易にするために,クロスモーダルな協調表現学習フレームワークを提案する。
RGBT-CCベンチマークで行った実験は、RGBTの群集カウントにおけるフレームワークの有効性を示した。
論文 参考訳(メタデータ) (2020-12-08T16:18:29Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。