論文の概要: S$^2$FPR: Crowd Counting via Self-Supervised Coarse to Fine Feature
Pyramid Ranking
- arxiv url: http://arxiv.org/abs/2201.04819v1
- Date: Thu, 13 Jan 2022 07:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:06:03.804916
- Title: S$^2$FPR: Crowd Counting via Self-Supervised Coarse to Fine Feature
Pyramid Ranking
- Title(参考訳): S$^2$FPR: 自己監督された粗粒から細いピラミッドランク付けによる群衆カウント
- Authors: Jiaqi Gao, Zhizhong Huang, Yiming Lei, James Z. Wang, Fei-Yue Wang,
Junping Zhang
- Abstract要約: ラベルなし画像の潜在空間における粗いピラミッド特徴の部分順序を学習するために、S$2$FPRを提案する。
さらに、トレーニング用に4000枚の画像を含む新しい未ラベルのクラウドカウントデータセット(FUDAN-UCC)を収集する。
提案したS$2$FPR法は、ラベルなし画像の潜在空間における多数の部分順序を有効活用し、モデル表現能力を向上することができる。
- 参考スコア(独自算出の注目度): 46.918500518669504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most conventional crowd counting methods utilize a fully-supervised learning
framework to learn a mapping between scene images and crowd density maps. Under
the circumstances of such fully-supervised training settings, a large quantity
of expensive and time-consuming pixel-level annotations are required to
generate density maps as the supervision. One way to reduce costly labeling is
to exploit self-structural information and inner-relations among unlabeled
images. Unlike the previous methods utilizing these relations and structural
information from the original image level, we explore such self-relations from
the latent feature spaces because it can extract more abundant relations and
structural information. Specifically, we propose S$^2$FPR which can extract
structural information and learn partial orders of coarse-to-fine pyramid
features in the latent space for better crowd counting with massive unlabeled
images. In addition, we collect a new unlabeled crowd counting dataset
(FUDAN-UCC) with 4,000 images in total for training. One by-product is that our
proposed S$^2$FPR method can leverage numerous partial orders in the latent
space among unlabeled images to strengthen the model representation capability
and reduce the estimation errors for the crowd counting task. Extensive
experiments on four benchmark datasets, i.e. the UCF-QNRF, the ShanghaiTech
PartA and PartB, and the UCF-CC-50, show the effectiveness of our method
compared with previous semi-supervised methods. The source code and dataset are
available at https://github.com/bridgeqiqi/S2FPR.
- Abstract(参考訳): 従来のクラウドカウント手法では,フル教師付き学習フレームワークを用いて,シーンイメージと群衆密度マップのマッピングを学習する。
このような完全教師付きトレーニング設定の状況下では、高額かつ時間を要する画素レベルのアノテーションが、監督として密度マップを生成するために必要である。
コストラベリングを減らす方法の1つは、ラベルなし画像の自己構造情報と内部関係を利用することである。
これらの関係や構造情報を元の画像レベルから利用する従来の手法とは異なり、より豊富な関係や構造情報を抽出できるため、潜在特徴空間からの自己関係を探索する。
具体的には,構造情報を抽出し,潜在空間における粗視から細かなピラミッド特徴の部分順序を学習し,無ラベル画像を用いた群衆数を向上できるs$^2$fprを提案する。
さらに、トレーニング用に4000枚の画像を含む新しい未ラベルのクラウドカウントデータセット(FUDAN-UCC)を収集する。
1つの副産物は、提案するs$^2$fpr法が未ラベル画像間の潜在空間における多数の部分順序を活用し、モデル表現能力を強化し、群衆カウントタスクの推定誤差を低減できることである。
UCF-QNRF,ShanghaiTech PartA,PartB,UCF-CC-50の4つのベンチマークデータセットに対する大規模な実験により,従来の半教師付き手法と比較して,本手法の有効性が示された。
ソースコードとデータセットはhttps://github.com/bridgeqiqi/s2fprで入手できる。
関連論文リスト
- Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Glance to Count: Learning to Rank with Anchors for Weakly-supervised
Crowd Counting [43.446730359817515]
群衆の画像は、おそらくアノテートする最も面倒なデータの一つだ。
本稿では,2つの画像と高コントラスト数の2値ランキングをトレーニング指導として活用する,弱教師付きセッティングを提案する。
本研究では,様々な管理手法の組み合わせを研究するために広範囲な実験を行い,提案手法が既存の弱い監督手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-05-29T13:39:34Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Spatial Consistency Loss for Training Multi-Label Classifiers from
Single-Label Annotations [39.69823105183408]
マルチラベルの分類はシングルラベルの分類よりも「野生で」適用できる。
整合性損失を加えることは、弱教師付き環境でマルチラベル分類器を訓練するための単純かつ効果的な方法であることを示す。
また、ReaLマルチラベル検証セットを用いて、ImageNet-1K上のマルチラベル分類mAPを改善した。
論文 参考訳(メタデータ) (2022-03-11T17:54:20Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Multi-Scale Context Aggregation Network with Attention-Guided for Crowd
Counting [23.336181341124746]
群衆カウントは、人の数を予測し、画像内の密度マップを生成することを目的としている。
さまざまなヘッドスケール、画像間の群衆分布の多様性、散らかった背景など、多くの課題がある。
本稿では,クラウドカウントのための単一カラムエンコーダ・デコーダアーキテクチャに基づくマルチスケールコンテキストアグリゲーションネットワーク(mscanet)を提案する。
論文 参考訳(メタデータ) (2021-04-06T02:24:06Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z) - Active Crowd Counting with Limited Supervision [13.09054893296829]
本稿では,限られた監督下で正確な群集カウントを可能にする能動的学習フレームワークを提案する。
まず、データセットの最も情報性の高い画像に注釈を付けるためのアクティブなラベリング戦略を導入し、その上にカウントモデルを学習する。
ラベリング予算が満たされた最後のサイクルでは、大量の未ラベルデータも利用される。
論文 参考訳(メタデータ) (2020-07-13T12:07:25Z) - Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition [55.15661254072032]
自動4次元表情認識(FER)のための空間認識深層ネットワークを提案する。
まず,深層学習のためのデータ制限問題に対処する新しい拡張手法を提案する。
次に、多視点での畳み込み特徴のスパース表現を計算するために、疎度対応のディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-08T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。