論文の概要: TransCrowd: Weakly-Supervised Crowd Counting with Transformer
- arxiv url: http://arxiv.org/abs/2104.09116v1
- Date: Mon, 19 Apr 2021 08:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 01:15:08.882196
- Title: TransCrowd: Weakly-Supervised Crowd Counting with Transformer
- Title(参考訳): TransCrowd: トランスフォーマーで観客を数える
- Authors: Dingkang Liang, Xiwu Chen, Wei Xu, Yu Zhou, Xiang Bai
- Abstract要約: 今回提案するTransCrowdは、Transformerに基づくシーケンス・ツー・カウントの観点から、監視の弱い群衆カウント問題を再構成する。
5つのベンチマークデータセットの実験は、提案されたTransCrowdが、弱い監視されたCNNベースのカウント方法すべてと比較して優れたパフォーマンスを達成することを示しています。
- 参考スコア(独自算出の注目度): 56.84516562735186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mainstream crowd counting methods usually utilize the convolution neural
network (CNN) to regress a density map, requiring point-level annotations.
However, annotating each person with a point is an expensive and laborious
process. During the testing phase, the point-level annotations are not
considered to evaluate the counting accuracy, which means the point-level
annotations are redundant. Hence, it is desirable to develop weakly-supervised
counting methods that just rely on count level annotations, a more economical
way of labeling. Current weakly-supervised counting methods adopt the CNN to
regress a total count of the crowd by an image-to-count paradigm. However,
having limited receptive fields for context modeling is an intrinsic limitation
of these weakly-supervised CNN-based methods. These methods thus can not
achieve satisfactory performance, limited applications in the real-word. The
Transformer is a popular sequence-to-sequence prediction model in NLP, which
contains a global receptive field. In this paper, we propose TransCrowd, which
reformulates the weakly-supervised crowd counting problem from the perspective
of sequence-to-count based on Transformer. We observe that the proposed
TransCrowd can effectively extract the semantic crowd information by using the
self-attention mechanism of Transformer. To the best of our knowledge, this is
the first work to adopt a pure Transformer for crowd counting research.
Experiments on five benchmark datasets demonstrate that the proposed TransCrowd
achieves superior performance compared with all the weakly-supervised CNN-based
counting methods and gains highly competitive counting performance compared
with some popular fully-supervised counting methods. Code is available at
https://github.com/dk-liang/TransCrowd.
- Abstract(参考訳): メインストリームの群衆カウント手法は通常、畳み込みニューラルネットワーク(cnn)を使用して密度マップを後退させ、ポイントレベルのアノテーションを必要とする。
しかし、各人にポイントを付けるのは高価で手間のかかる作業である。
テストフェーズでは、ポイントレベルのアノテーションはカウントの正確さを評価できないため、ポイントレベルのアノテーションは冗長である。
したがって、より経済的なラベル付け方法であるカウントレベルのアノテーションのみに依存する弱い教師付きカウントメソッドを開発することが望ましい。
現在の弱教師付きカウント手法はcnnを採用し、画像対カウントパラダイムによって群衆の総カウントを後退させる。
しかしながら、文脈モデリングに限定された受容場を持つことは、これらの弱い教師付きcnnベースの方法の本質的な制限である。
したがって、これらの手法は、実語での限られた応用を満足な性能で達成できない。
トランスフォーマはnlpで一般的なシーケンスからシーケンスへの予測モデルであり、グローバルレセプティブフィールドを含んでいる。
本稿では,変圧器に基づく数列化の観点から,教師なし群数問題を再構成するtranscrowdを提案する。
提案手法は,トランスフォーマの自己着脱機構を用いて,意味的群集情報を効果的に抽出できることを示す。
私たちの知る限りでは、群衆カウント研究に純粋なトランスフォーマーを採用するのはこれが初めてです。
5つのベンチマークデータセットの実験では、提案したTransCrowdは、弱教師付きCNNベースのカウント方式と比較して優れた性能を示し、一般的な完全教師付きカウント方式と比較して高い競争力を持つ。
コードはhttps://github.com/dk-liang/transcrowdで入手できる。
関連論文リスト
- ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Joint CNN and Transformer Network via weakly supervised Learning for
efficient crowd counting [22.040942519355628]
我々は,群集カウントのための弱教師付き学習を通して,共同CNNとトランスフォーマーネットワーク(JCTNet)を提案する。
JCTNetは、効果的に群集領域に集中でき、5つの主流データセット上で、より弱い教師付きカウント性能を得ることができる。
論文 参考訳(メタデータ) (2022-03-12T09:40:29Z) - CrowdFormer: Weakly-supervised Crowd counting with Improved
Generalizability [2.8174125805742416]
本稿では,ピラミッド・ビジョン・トランスを用いた群集カウント手法を提案する。
我々の手法は,ベンチマーククラウドデータセットの最先端技術に匹敵するものである。
論文 参考訳(メタデータ) (2022-03-07T23:10:40Z) - CCTrans: Simplifying and Improving Crowd Counting with Transformer [7.597392692171026]
設計パイプラインをシンプルにするために,CCTransと呼ばれる簡単なアプローチを提案する。
具体的には、ピラミッド・ビジョン・トランスフォーマーのバックボーンを用いて、グローバルな観衆情報をキャプチャする。
提案手法は, 弱い, 完全に監督された群集カウントにおいて, いくつかのベンチマークにおいて, 最新の結果が得られる。
論文 参考訳(メタデータ) (2021-09-29T15:13:10Z) - Wisdom of (Binned) Crowds: A Bayesian Stratification Paradigm for Crowd
Counting [16.09823718637455]
本研究は,ストラタレベルの標準データセットとアグリゲーション単位での群集カウント手法の性能を解析する。
我々の貢献は、群衆カウントの手法における、微妙な、統計的にバランスのとれた、きめ細かな性能評価を表現している。
論文 参考訳(メタデータ) (2021-08-19T16:50:31Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z) - Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks [50.78037828213118]
本稿では,機能学習の観点から,半教師付き群集カウント問題に取り組む。
本稿では,2つの革新的なコンポーネント上に構築された,新しい半教師付き群集カウント手法を提案する。
論文 参考訳(メタデータ) (2020-07-07T05:30:53Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。