論文の概要: Multimodal Crowd Counting with Pix2Pix GANs
- arxiv url: http://arxiv.org/abs/2401.07591v1
- Date: Mon, 15 Jan 2024 10:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:22:17.226976
- Title: Multimodal Crowd Counting with Pix2Pix GANs
- Title(参考訳): Pix2Pix GANによるマルチモーダルクラウドカウント
- Authors: Muhammad Asif Khan, Hamid Menouar, Ridha Hamila
- Abstract要約: 本稿では,色(RGB)画像から熱赤外(TIR)画像を自動的に生成するGAN(Generative Adversarial Network)を提案する。
いくつかの最先端の群集カウントモデルとベンチマーク群集データセットに関する実験は、精度が大幅に向上したことを報告している。
- 参考スコア(独自算出の注目度): 2.462045767312954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most state-of-the-art crowd counting methods use color (RGB) images to learn
the density map of the crowd. However, these methods often struggle to achieve
higher accuracy in densely crowded scenes with poor illumination. Recently,
some studies have reported improvement in the accuracy of crowd counting models
using a combination of RGB and thermal images. Although multimodal data can
lead to better predictions, multimodal data might not be always available
beforehand. In this paper, we propose the use of generative adversarial
networks (GANs) to automatically generate thermal infrared (TIR) images from
color (RGB) images and use both to train crowd counting models to achieve
higher accuracy. We use a Pix2Pix GAN network first to translate RGB images to
TIR images. Our experiments on several state-of-the-art crowd counting models
and benchmark crowd datasets report significant improvement in accuracy.
- Abstract(参考訳): ほとんどの最先端の群衆カウント手法は、群衆の密度マップを学ぶために色(RGB)画像を使用する。
しかし、これらの手法は、照度が低い密集したシーンでは高い精度を達成するのに苦労することが多い。
近年,RGBと熱画像の組み合わせによる群集カウントモデルの精度向上が報告されている。
マルチモーダルデータはより良い予測につながる可能性があるが、マルチモーダルデータは事前に利用できるとは限らない。
本稿では,色 (rgb) 画像から熱赤外線 (tir) 画像を自動的に生成し, 群衆カウントモデルの訓練と精度向上を図るために, 生成型逆ネットワーク (gans) の利用を提案する。
我々はまずPix2Pix GANネットワークを用いてRGB画像をTIR画像に変換する。
最新の群集計数モデルとベンチマーク群集データセットを用いた実験により,精度が大幅に向上した。
関連論文リスト
- Simple Image Signal Processing using Global Context Guidance [56.41827271721955]
ディープラーニングベースのISPは、深層ニューラルネットワークを使用してRAW画像をDSLRライクなRGBイメージに変換することを目指している。
我々は,全RAW画像からグローバルなコンテキスト情報をキャプチャするために,任意のニューラルISPに統合可能な新しいモジュールを提案する。
本モデルでは,多種多様な実スマートフォン画像を用いて,様々なベンチマークで最新の結果が得られる。
論文 参考訳(メタデータ) (2024-04-17T17:11:47Z) - Training Neural Networks on RAW and HDR Images for Restoration Tasks [59.41340420564656]
本研究は,3つの画像復元アプリケーション(デノイング,デブロアリング,シングルイメージ超解像)に対するアプローチを検証した。
その結果、ニューラルネットワークは、表示色空間で表現されるHDRおよびRAW画像において、かなりよく訓練されていることが示唆された。
トレーニング戦略へのこの小さな変更は、最大10~15dBのパフォーマンスを大幅に向上させることができます。
論文 参考訳(メタデータ) (2023-12-06T17:47:16Z) - Visible to Thermal image Translation for improving visual task in low
light conditions [0.0]
Parrot Anafi Thermalのドローンを使って、2つの場所から画像を収集した。
我々は2ストリームネットワークを作成し、前処理、拡張、画像データを作成し、ジェネレータと識別器モデルをゼロから訓練した。
その結果, RGB トレーニングデータを GAN を用いて熱データに変換することが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-10-31T05:18:53Z) - Crowd Counting in Harsh Weather using Image Denoising with Pix2Pix GANs [2.462045767312954]
視覚的群集カウントは、畳み込みニューラルネットワーク(CNN)のようなディープラーニングモデルを用いて、群衆の密度を推定する。
本稿では,まず Pix2Pix 生成逆数ネットワーク (GAN) を用いて,これをカウントモデルに渡す前に,まず群像を復調する手法を提案する。
Pix2Pixネットワークは、オリジナルの群衆画像から生成された合成ノイズ画像を用いて訓練され、事前学習された生成物が推論エンジンで使われ、目に見えない、ノイズの多い群衆画像の群衆密度を推定する。
論文 参考訳(メタデータ) (2023-10-11T07:22:37Z) - Edge-guided Multi-domain RGB-to-TIR image Translation for Training
Vision Tasks with Challenging Labels [12.701191873813583]
注釈付き熱赤外(TIR)画像データセットの不足は、TIR画像ベースのディープラーニングネットワークを妨害し、RGBと同等の性能を持つ。
本稿では,エッジ保存に着目したマルチドメインRGBからTIRへの変換モデルを提案する。
我々は、終点誤差を平均56.5%改善した深部TIR画像に基づく光フロー推定と物体検出の教師あり学習を可能にし、最高の物体検出mAPは23.9%とした。
論文 参考訳(メタデータ) (2023-01-30T06:44:38Z) - MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting [40.4816930622052]
マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群カウントネットワークを提案する。
エンコーダ部では、マルチアテンション・フュージョン(MAF)モジュールを2つのモード固有分岐の異なるステージに埋め込み、クロスモーダル・フュージョンを行う。
2つの人気のあるデータセットに対する大規模な実験は、提案したMAFNetがRGB-Tの群衆カウントに有効であることを示している。
論文 参考訳(メタデータ) (2022-08-14T02:42:09Z) - RGB-Multispectral Matching: Dataset, Learning Methodology, Evaluation [49.28588927121722]
ステレオマッチング対応を解くことで,解像度の異なる同期色(RGB)とマルチスペクトル画像(MS)の登録の問題に対処する。
室内環境における13の異なるシーンをフレーミングする新しいRGB-MSデータセットを導入し,34枚の画像対に半高解像度の高解像度の地上トラスラベルを付加したアノテートを行った。
そこで本研究では,RGBカメラを活用した自己指導型ディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-14T17:59:59Z) - Transform your Smartphone into a DSLR Camera: Learning the ISP in the
Wild [159.71025525493354]
本稿では,スマートフォンが取得したRAW画像に基づいて,DSLRの品質画像を生成する訓練可能な画像信号処理フレームワークを提案する。
トレーニング画像ペア間の色ずれに対処するために、カラー条件ISPネットワークを使用し、各入力RAWと基準DSLR画像間の新しいパラメトリック色マッピングを最適化する。
論文 参考訳(メタデータ) (2022-03-20T20:13:59Z) - Self-Supervised Modality-Aware Multiple Granularity Pre-Training for
RGB-Infrared Person Re-Identification [9.624510941236837]
Modality-Aware Multiple Granularity Learning (MMGL)は、ImageNetの事前学習に代わる自己教師付き事前学習である。
MMGLはImageNetの事前トレーニングよりも高速なトレーニング速度(数時間で収束)とデータ効率(5%のデータサイズ)で、より良い表現(+6.47% Rank-1)を学習する。
結果は、既存のさまざまなモデル、損失をうまく一般化し、データセット間で有望な転送可能性を持つことを示唆している。
論文 参考訳(メタデータ) (2021-12-12T04:40:33Z) - Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision [76.41657124981549]
本稿では,画像アライメントとRAW-to-sRGBマッピングのための共同学習モデルを提案する。
実験の結果,本手法はZRRおよびSR-RAWデータセットの最先端に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2021-08-18T12:41:36Z) - Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT
Benchmark for Crowd Counting [109.32927895352685]
RGBT Crowd Counting (RGBT-CC) ベンチマークは2,030対のRGB熱画像と138,389人の注釈付き画像を含む。
マルチモーダルな群集カウントを容易にするために,クロスモーダルな協調表現学習フレームワークを提案する。
RGBT-CCベンチマークで行った実験は、RGBTの群集カウントにおけるフレームワークの有効性を示した。
論文 参考訳(メタデータ) (2020-12-08T16:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。