論文の概要: Deep Rank-Consistent Pyramid Model for Enhanced Crowd Counting
- arxiv url: http://arxiv.org/abs/2201.04819v2
- Date: Wed, 22 Nov 2023 11:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 19:28:55.678792
- Title: Deep Rank-Consistent Pyramid Model for Enhanced Crowd Counting
- Title(参考訳): 群集数向上のための深層式ピラミッドモデル
- Authors: Jiaqi Gao, Zhizhong Huang, Yiming Lei, Hongming Shan, James Z. Wang,
Fei-Yue Wang, Junping Zhang
- Abstract要約: そこで我々は,大規模未ラベル画像を用いた観客数増大を目的としたDREAM(Deep Rank-consistEnt pyrAmid Model)を提案する。
さらに, トレーニング目的のために4000枚の画像を含む, 未ラベルのクラウドカウントデータセット, FUDAN-UCC を新たに収集した。
- 参考スコア(独自算出の注目度): 48.15210212256114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most conventional crowd counting methods utilize a fully-supervised learning
framework to establish a mapping between scene images and crowd density maps.
They usually rely on a large quantity of costly and time-intensive pixel-level
annotations for training supervision. One way to mitigate the intensive
labeling effort and improve counting accuracy is to leverage large amounts of
unlabeled images. This is attributed to the inherent self-structural
information and rank consistency within a single image, offering additional
qualitative relation supervision during training. Contrary to earlier methods
that utilized the rank relations at the original image level, we explore such
rank-consistency relation within the latent feature spaces. This approach
enables the incorporation of numerous pyramid partial orders, strengthening the
model representation capability. A notable advantage is that it can also
increase the utilization ratio of unlabeled samples. Specifically, we propose a
Deep Rank-consistEnt pyrAmid Model (DREAM), which makes full use of rank
consistency across coarse-to-fine pyramid features in latent spaces for
enhanced crowd counting with massive unlabeled images. In addition, we have
collected a new unlabeled crowd counting dataset, FUDAN-UCC, comprising 4,000
images for training purposes. Extensive experiments on four benchmark datasets,
namely UCF-QNRF, ShanghaiTech PartA and PartB, and UCF-CC-50, show the
effectiveness of our method compared with previous semi-supervised methods. The
codes are available at https://github.com/bridgeqiqi/DREAM.
- Abstract(参考訳): 従来の群集計数法は、全教師付き学習フレームワークを用いて、シーン画像と群集密度マップのマッピングを確立する。
通常、トレーニングの監督には大量のコストと時間を要するピクセルレベルのアノテーションを頼りにしている。
集中ラベリングの取り組みを緩和し、カウント精度を向上させる一つの方法は、大量の未ラベル画像を活用することである。
これは、1つの画像内の固有の自己構造情報とランク一貫性によるもので、トレーニング中に追加の質的関係監督を提供する。
元の画像レベルでのランク関係を利用した以前の手法とは対照的に、潜在特徴空間内でこのようなランク一貫性の関係を探索する。
このアプローチにより、多数のピラミッド部分順序が組み込まれ、モデル表現能力が強化される。
顕著な利点は、未ラベルサンプルの利用率を増加させることである。
具体的には,隠れ空間における粗視から細かなピラミッド特徴のランク一貫性をフルに活用し,巨大なラベル付き画像を用いた群衆数を増加させる,階層性ピラミッドモデル(dream)を提案する。
さらに, トレーニング目的のために4000枚の画像を含む, 未ラベルのクラウドカウントデータセットFUDAN-UCCを新たに収集した。
UCF-QNRF,ShanghaiTech PartA,PartB,UCF-CC-50の4つのベンチマークデータセットに対する大規模な実験により,従来の半教師付き手法と比較して,本手法の有効性が示された。
コードはhttps://github.com/bridgeqiqi/dreamで入手できる。
関連論文リスト
- Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Glance to Count: Learning to Rank with Anchors for Weakly-supervised
Crowd Counting [43.446730359817515]
群衆の画像は、おそらくアノテートする最も面倒なデータの一つだ。
本稿では,2つの画像と高コントラスト数の2値ランキングをトレーニング指導として活用する,弱教師付きセッティングを提案する。
本研究では,様々な管理手法の組み合わせを研究するために広範囲な実験を行い,提案手法が既存の弱い監督手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-05-29T13:39:34Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Spatial Consistency Loss for Training Multi-Label Classifiers from
Single-Label Annotations [39.69823105183408]
マルチラベルの分類はシングルラベルの分類よりも「野生で」適用できる。
整合性損失を加えることは、弱教師付き環境でマルチラベル分類器を訓練するための単純かつ効果的な方法であることを示す。
また、ReaLマルチラベル検証セットを用いて、ImageNet-1K上のマルチラベル分類mAPを改善した。
論文 参考訳(メタデータ) (2022-03-11T17:54:20Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Multi-Scale Context Aggregation Network with Attention-Guided for Crowd
Counting [23.336181341124746]
群衆カウントは、人の数を予測し、画像内の密度マップを生成することを目的としている。
さまざまなヘッドスケール、画像間の群衆分布の多様性、散らかった背景など、多くの課題がある。
本稿では,クラウドカウントのための単一カラムエンコーダ・デコーダアーキテクチャに基づくマルチスケールコンテキストアグリゲーションネットワーク(mscanet)を提案する。
論文 参考訳(メタデータ) (2021-04-06T02:24:06Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z) - Active Crowd Counting with Limited Supervision [13.09054893296829]
本稿では,限られた監督下で正確な群集カウントを可能にする能動的学習フレームワークを提案する。
まず、データセットの最も情報性の高い画像に注釈を付けるためのアクティブなラベリング戦略を導入し、その上にカウントモデルを学習する。
ラベリング予算が満たされた最後のサイクルでは、大量の未ラベルデータも利用される。
論文 参考訳(メタデータ) (2020-07-13T12:07:25Z) - Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition [55.15661254072032]
自動4次元表情認識(FER)のための空間認識深層ネットワークを提案する。
まず,深層学習のためのデータ制限問題に対処する新しい拡張手法を提案する。
次に、多視点での畳み込み特徴のスパース表現を計算するために、疎度対応のディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-08T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。