論文の概要: Diffusion-based Data Augmentation for Object Counting Problems
- arxiv url: http://arxiv.org/abs/2401.13992v1
- Date: Thu, 25 Jan 2024 07:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:20:14.727649
- Title: Diffusion-based Data Augmentation for Object Counting Problems
- Title(参考訳): 拡散に基づくオブジェクトカウント問題に対するデータ拡張
- Authors: Zhen Wang, Yuelei Li, Jia Wan, Nuno Vasconcelos
- Abstract要約: 拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
- 参考スコア(独自算出の注目度): 62.63346162144445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting is an important problem in computer vision due to its wide
range of applications in image understanding. Currently, this problem is
typically addressed using deep learning approaches, such as Convolutional
Neural Networks (CNNs) and Transformers. However, deep networks are data-driven
and are prone to overfitting, especially when the available labeled crowd
dataset is limited. To overcome this limitation, we have designed a pipeline
that utilizes a diffusion model to generate extensive training data. We are the
first to generate images conditioned on a location dot map (a binary dot map
that specifies the location of human heads) with a diffusion model. We are also
the first to use these diverse synthetic data to augment the crowd counting
models. Our proposed smoothed density map input for ControlNet significantly
improves ControlNet's performance in generating crowds in the correct
locations. Also, Our proposed counting loss for the diffusion model effectively
minimizes the discrepancies between the location dot map and the crowd images
generated. Additionally, our innovative guidance sampling further directs the
diffusion process toward regions where the generated crowd images align most
accurately with the location dot map. Collectively, we have enhanced
ControlNet's ability to generate specified objects from a location dot map,
which can be used for data augmentation in various counting problems. Moreover,
our framework is versatile and can be easily adapted to all kinds of counting
problems. Extensive experiments demonstrate that our framework improves the
counting performance on the ShanghaiTech, NWPU-Crowd, UCF-QNRF, and TRANCOS
datasets, showcasing its effectiveness.
- Abstract(参考訳): クラウドカウントは、画像理解に幅広い応用があるため、コンピュータビジョンにおいて重要な問題である。
現在、この問題は通常、畳み込みニューラルネットワーク(cnns)やトランスフォーマーといったディープラーニングアプローチで解決されている。
しかし、ディープネットワークはデータ駆動であり、特にラベル付きデータセットが制限されている場合、オーバーフィットしがちである。
この制限を克服するために,拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを設計した。
我々は、拡散モデルを用いて、位置ドットマップ(人間の頭の位置を特定するバイナリドットマップ)に条件付けされた画像を初めて生成する。
私たちはまた、これらの多様な合成データを使って、群衆のカウントモデルを強化しました。
提案する制御ネットの平滑化密度マップ入力は,正しい場所での群集生成における制御ネットの性能を大幅に向上させる。
また,拡散モデルに対するカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
さらに,提案手法の革新的ガイダンスは,生成した群集画像が位置ドットマップと最も正確に一致している領域への拡散過程をさらに誘導する。
集合的に、位置ドットマップから特定のオブジェクトを生成するControlNetの機能を強化しました。
さらに,我々のフレームワークは汎用性があり,あらゆる種類の計数問題に容易に適用できる。
大規模な実験により,上海技術,NWPU-Crowd,UCF-QNRF,TRANCOSデータセットのカウント性能が向上し,その有効性が示された。
関連論文リスト
- Redesigning Multi-Scale Neural Network for Crowd Counting [68.674652984003]
本稿では, 集団カウントのための多スケール密度マップを階層的にマージする, 密度専門家の階層的混合を導入する。
階層構造の中では、すべてのスケールからの貢献を促進するために、専門家の競争とコラボレーションのスキームが提示されます。
実験の結果,提案手法は5つの公開データセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-08-04T21:49:29Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - PSCNet: Pyramidal Scale and Global Context Guided Network for Crowd
Counting [44.306790250158954]
本稿では,ピラミッドスケールモジュール (PSM) とグローバルコンテキストモジュール (GCM) に基づく新しい群集カウント手法を提案する。
PSMは、異なる画像スケールの群衆の境界を識別できる多スケール情報を適応的にキャプチャするために使用される。
GCMは、機能マップのチャネル全体のインタラクティブな情報をより効率的にするために、低複雑さと軽量な方法で考案されています。
論文 参考訳(メタデータ) (2020-12-07T11:35:56Z) - Bayesian Multi Scale Neural Network for Crowd Counting [0.0]
本稿では,ResNetベースの特徴抽出器,拡張畳み込みを用いたダウンサンプリングブロック,変換畳み込みを用いたアップサンプリングブロックを用いた新しいネットワークを提案する。
本稿では,視点視点問題に対してネットワークを堅牢化する新しいアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2020-07-11T21:43:20Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z) - JHU-CROWD++: Large-Scale Crowd Counting Dataset and A Benchmark Method [92.15895515035795]
我々は、"4,372"イメージと"1.51万"アノテーションを含む、新しい大規模非制約クラウドカウントデータセット(JHU-CROWD++)を導入する。
本稿では, 残差誤差推定により, 群集密度マップを段階的に生成する新しい群集カウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T14:59:35Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。