論文の概要: L2HCount:Generalizing Crowd Counting from Low to High Crowd Density via Density Simulation
- arxiv url: http://arxiv.org/abs/2503.12935v1
- Date: Mon, 17 Mar 2025 08:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:32.307623
- Title: L2HCount:Generalizing Crowd Counting from Low to High Crowd Density via Density Simulation
- Title(参考訳): L2HCount:密度シミュレーションによる低密度から高密度への集団数一般化
- Authors: Guoliang Xu, Jianqin Yin, Ren Zhang, Yonghao Dang, Feng Zhou, Bo Yu,
- Abstract要約: 低密度のシーンから高密度のシーンに関連するパターンを学習する低密度から高密度の一般化フレームワーク(L2HCount)を提案する。
4つの挑戦的なデータセットの実験は、L2HCountの有望なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 11.765879895906679
- License:
- Abstract: Since COVID-19, crowd-counting tasks have gained wide applications. While supervised methods are reliable, annotation is more challenging in high-density scenes due to small head sizes and severe occlusion, whereas it's simpler in low-density scenes. Interestingly, can we train the model in low-density scenes and generalize it to high-density scenes? Therefore, we propose a low- to high-density generalization framework (L2HCount) that learns the pattern related to high-density scenes from low-density ones, enabling it to generalize well to high-density scenes. Specifically, we first introduce a High-Density Simulation Module and a Ground-Truth Generation Module to construct fake high-density images along with their corresponding ground-truth crowd annotations respectively by image-shifting technique, effectively simulating high-density crowd patterns. However, the simulated images have two issues: image blurring and loss of low-density image characteristics. Therefore, we second propose a Head Feature Enhancement Module to extract clear features in the simulated high-density scene. Third, we propose a Dual-Density Memory Encoding Module that uses two crowd memories to learn scene-specific patterns from low- and simulated high-density scenes, respectively. Extensive experiments on four challenging datasets have shown the promising performance of L2HCount.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)以降、クラウドカウンセリングタスクは広範囲に応用されている。
教師付き手法は信頼性が高いが、低密度シーンではよりシンプルなのに対して、頭のサイズが小さく、重度の閉塞のため、高密度シーンではアノテーションがより難しい。
興味深いことに、低密度シーンでモデルをトレーニングして、高密度シーンに一般化できるだろうか?
そこで本研究では,低密度シーンから高密度シーンに関するパターンを学習し,高密度シーンへの一般化を可能にする低密度一般化フレームワーク(L2HCount)を提案する。
具体的には,まず,高密度シミュレーションモジュールと高密度画像生成モジュールを導入して,高密度画像とそれに対応する高密度画像アノテーションを画像シフト技術を用いて構築し,高密度画像パターンを効果的にシミュレートする。
しかし、シミュレーション画像には、画像のぼかしと低密度画像特性の喪失という2つの問題がある。
そこで,本研究では,シミュレーションされた高密度シーンの明瞭な特徴を抽出するヘッド機能拡張モジュールを提案する。
第3に,2つの群衆記憶を用いて,低密度・シミュレートされた高密度シーンからシーン固有のパターンを学習するデュアル密度メモリ符号化モジュールを提案する。
4つの挑戦的なデータセットに対する大規模な実験は、L2HCountの有望なパフォーマンスを示している。
関連論文リスト
- T$^3$-S2S: Training-free Triplet Tuning for Sketch to Scene Generation [56.054622766743414]
本研究では,Sketch-to-Scene (T3-S2S) 生成のためのトレーニング不要トリプルトチューニングを提案する。
プロンプトバランスモジュールによるキーワード表現を強化し、クリティカルなインスタンスが欠落するリスクを低減する。
実験により,既存のスケッチ・ツー・イメージモデルの性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2024-12-18T04:01:32Z) - Dropout the High-rate Downsampling: A Novel Design Paradigm for UHD Image Restoration [11.866565346920781]
D2NetはUHD(Ultra-high-definition)画像の完全な推測を可能にする。
本モデルは,最先端手法よりも定量的,定性的な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-11-10T13:05:36Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Exposure Bracketing Is All You Need For A High-Quality Image [50.822601495422916]
マルチ露光画像は、デノイング、デブロアリング、高ダイナミックレンジイメージング、超解像において相補的である。
本研究では,これらの課題を組み合わせ,高品質な画像を得るために露光ブラケット写真を活用することを提案する。
特に時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution [16.815468458589635]
生成した実世界の画像の超解像のセマンティックな忠実さをよりよく保存するためのセマンティックス・アウェア・アプローチを提案する。
まず, 高精度なソフト・ハード・セマンティック・プロンプトを高い劣化下でも生成できる劣化対応プロンプト抽出器を訓練する。
実験により,本手法はよりリアルな画像の詳細を再現し,セマンティクスをよりよく保持できることが示された。
論文 参考訳(メタデータ) (2023-11-27T18:11:19Z) - Beyond Surface Statistics: Scene Representations in a Latent Diffusion
Model [52.634378583311054]
潜在拡散モデル(LDM)は現実的な画像を生成するが、これらのモデルの内部構造は謎のままである。
本研究では, LDMは単純なシーン幾何学の内部表現を作成し, 利用するのかという, 基本的な解釈可能性の問題について考察する。
線形プローブを用いて,LDMの内部活性化が3次元深度データの線形表現と,有向物体/背景像の線形表現を符号化していることを示す。
論文 参考訳(メタデータ) (2023-06-09T07:34:34Z) - Hybrid Neural Rendering for Large-Scale Scenes with Motion Blur [68.24599239479326]
画像ベース表現とニューラル3D表現を結合して高品質なビュー一貫性のある画像をレンダリングするハイブリッドなニューラルレンダリングモデルを開発した。
我々のモデルは、新しいビュー合成のための最先端のポイントベース手法を超越している。
論文 参考訳(メタデータ) (2023-04-25T08:36:33Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。