論文の概要: CrowdFormer: Weakly-supervised Crowd counting with Improved
Generalizability
- arxiv url: http://arxiv.org/abs/2203.03768v1
- Date: Mon, 7 Mar 2022 23:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 03:37:17.989449
- Title: CrowdFormer: Weakly-supervised Crowd counting with Improved
Generalizability
- Title(参考訳): CrowdFormer: 一般化性を改善した弱教師付きクラウドカウント
- Authors: Siddharth Singh Savner, Vivek Kanhangad
- Abstract要約: 本稿では,ピラミッド・ビジョン・トランスを用いた群集カウント手法を提案する。
我々の手法は,ベンチマーククラウドデータセットの最先端技術に匹敵するものである。
- 参考スコア(独自算出の注目度): 2.8174125805742416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional neural networks (CNNs) have dominated the field of computer
vision for nearly a decade due to their strong ability to learn local features.
However, due to their limited receptive field, CNNs fail to model the global
context. On the other hand, transformer, an attention-based architecture can
model the global context easily. Despite this, there are limited studies that
investigate the effectiveness of transformers in crowd counting. In addition,
the majority of the existing crowd counting methods are based on the regression
of density maps which requires point-level annotation of each person present in
the scene. This annotation task is laborious and also error-prone. This has led
to increased focus on weakly-supervised crowd counting methods which require
only the count-level annotations. In this paper, we propose a weakly-supervised
method for crowd counting using a pyramid vision transformer. We have conducted
extensive evaluations to validate the effectiveness of the proposed method. Our
method is comparable to the state-of-the-art on the benchmark crowd datasets.
More importantly, it shows remarkable generalizability.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、ローカル機能を学ぶ能力の強いために、コンピュータビジョンの分野を10年近く支配してきた。
しかし、その限定的な受容領域のため、cnnはグローバルコンテキストのモデル化に失敗している。
一方で、注意に基づくアーキテクチャであるtransformerは、グローバルコンテキストを簡単にモデル化することができる。
それにもかかわらず、群衆カウントにおけるトランスフォーマーの有効性を調査する研究は限られている。
また,既存の群集カウント手法の大部分は,現場に存在する各人物の点レベルアノテーションを必要とする密度マップの回帰に基づく。
このアノテーションタスクは手間がかかり、エラーも発生します。
これにより、カウントレベルのアノテーションのみを必要とする、弱い教師付きクラウドカウントメソッドへの注目が高まっている。
本稿では,ピラミッド型視覚変換器を用いた群集計数のための弱教師付き手法を提案する。
提案手法の有効性を検証するため,広範囲な評価を行った。
本手法は,ベンチマーク群集データセットの最先端技術に匹敵する。
さらに重要なことは、驚くべき一般化性を示すことだ。
関連論文リスト
- Robust Unsupervised Crowd Counting and Localization with Adaptive
Resolution SAM [61.10712338956455]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Joint CNN and Transformer Network via weakly supervised Learning for
efficient crowd counting [22.040942519355628]
我々は,群集カウントのための弱教師付き学習を通して,共同CNNとトランスフォーマーネットワーク(JCTNet)を提案する。
JCTNetは、効果的に群集領域に集中でき、5つの主流データセット上で、より弱い教師付きカウント性能を得ることができる。
論文 参考訳(メタデータ) (2022-03-12T09:40:29Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - Reinforcing Local Feature Representation for Weakly-Supervised Dense
Crowd Counting [21.26385035473938]
本稿では,局所表現の強化を目的とした自己適応型特徴類似性学習ネットワークとグローバル局所整合性損失を提案する。
異なるバックボーンをベースとした提案手法は,弱教師付き群集数と完全教師付き群集数とのギャップを狭める。
論文 参考訳(メタデータ) (2022-02-22T05:53:51Z) - Scene-Adaptive Attention Network for Crowd Counting [31.29858034122248]
本稿では,シーン適応型アテンションネットワークであるSAANetを提案する。
本研究では,変形可能なサンプリング位置と動的注意重みを持つ適応的特徴表現を学習するトランスフォーマーバックボーンの設計を行う。
我々は,4つの挑戦的群集カウントベンチマークについて広範な実験を行い,その手法が最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-12-31T15:03:17Z) - CCTrans: Simplifying and Improving Crowd Counting with Transformer [7.597392692171026]
設計パイプラインをシンプルにするために,CCTransと呼ばれる簡単なアプローチを提案する。
具体的には、ピラミッド・ビジョン・トランスフォーマーのバックボーンを用いて、グローバルな観衆情報をキャプチャする。
提案手法は, 弱い, 完全に監督された群集カウントにおいて, いくつかのベンチマークにおいて, 最新の結果が得られる。
論文 参考訳(メタデータ) (2021-09-29T15:13:10Z) - TransCrowd: Weakly-Supervised Crowd Counting with Transformer [56.84516562735186]
今回提案するTransCrowdは、Transformerに基づくシーケンス・ツー・カウントの観点から、監視の弱い群衆カウント問題を再構成する。
5つのベンチマークデータセットの実験は、提案されたTransCrowdが、弱い監視されたCNNベースのカウント方法すべてと比較して優れたパフォーマンスを達成することを示しています。
論文 参考訳(メタデータ) (2021-04-19T08:12:50Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z) - Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks [50.78037828213118]
本稿では,機能学習の観点から,半教師付き群集カウント問題に取り組む。
本稿では,2つの革新的なコンポーネント上に構築された,新しい半教師付き群集カウント手法を提案する。
論文 参考訳(メタデータ) (2020-07-07T05:30:53Z) - Towards Using Count-level Weak Supervision for Crowd Counting [55.58468947486247]
本稿では,少数の位置レベルのアノテーション(十分に教師された)と大量のカウントレベルのアノテーション(弱教師付き)からモデルを学習する,弱教師付き群集カウントの問題について検討する。
我々は、生成した密度マップの自由を制限するための正規化を構築するために、単純なyet効果のトレーニング戦略、すなわちMultiple Auxiliary Tasks Training (MATT)を考案した。
論文 参考訳(メタデータ) (2020-02-29T02:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。