論文の概要: CCTrans: Simplifying and Improving Crowd Counting with Transformer
- arxiv url: http://arxiv.org/abs/2109.14483v1
- Date: Wed, 29 Sep 2021 15:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:49:24.958235
- Title: CCTrans: Simplifying and Improving Crowd Counting with Transformer
- Title(参考訳): CCTrans: Transformerによるクラウドカウントの簡略化と改善
- Authors: Ye Tian, Xiangxiang Chu, Hongpeng Wang
- Abstract要約: 設計パイプラインをシンプルにするために,CCTransと呼ばれる簡単なアプローチを提案する。
具体的には、ピラミッド・ビジョン・トランスフォーマーのバックボーンを用いて、グローバルな観衆情報をキャプチャする。
提案手法は, 弱い, 完全に監督された群集カウントにおいて, いくつかのベンチマークにおいて, 最新の結果が得られる。
- 参考スコア(独自算出の注目度): 7.597392692171026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent methods used for crowd counting are based on the convolutional
neural network (CNN), which has a strong ability to extract local features. But
CNN inherently fails in modeling the global context due to the limited
receptive fields. However, the transformer can model the global context easily.
In this paper, we propose a simple approach called CCTrans to simplify the
design pipeline. Specifically, we utilize a pyramid vision transformer backbone
to capture the global crowd information, a pyramid feature aggregation (PFA)
model to combine low-level and high-level features, an efficient regression
head with multi-scale dilated convolution (MDC) to predict density maps.
Besides, we tailor the loss functions for our pipeline. Without bells and
whistles, extensive experiments demonstrate that our method achieves new
state-of-the-art results on several benchmarks both in weakly and
fully-supervised crowd counting. Moreover, we currently rank No.1 on the
leaderboard of NWPU-Crowd. Our code will be made available.
- Abstract(参考訳): 群集カウントに使われる最近の手法は、局所的な特徴を抽出する強力な能力を持つ畳み込みニューラルネットワーク(CNN)に基づいている。
しかしcnnは、レセプティブフィールドが限られているため、本質的にグローバルコンテキストのモデリングに失敗する。
しかし、変換器はグローバルコンテキストを容易にモデル化できる。
本稿では,設計パイプラインを簡易化するCCTransという簡単な手法を提案する。
具体的には,ピラミッド型視覚トランスフォーマーのバックボーンを用いて,階層型特徴集約 (pfa) モデルによる低レベル・高レベル機能の統合,マルチスケール拡張畳み込み (multi-scale dilated convolution, mdc) を用いた効率的な回帰ヘッドによる密度マップの予測を行う。
さらに、パイプラインの損失関数を調整します。
提案手法は,弱く,完全教師付き群数で,いくつかのベンチマークにおいて,新たな最先端結果が得られることを示す実験を行った。
また、現在、NWPU-Crowdのリーダーボードで第1位にランクされている。
私たちのコードは利用可能になります。
関連論文リスト
- Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - Joint CNN and Transformer Network via weakly supervised Learning for
efficient crowd counting [22.040942519355628]
我々は,群集カウントのための弱教師付き学習を通して,共同CNNとトランスフォーマーネットワーク(JCTNet)を提案する。
JCTNetは、効果的に群集領域に集中でき、5つの主流データセット上で、より弱い教師付きカウント性能を得ることができる。
論文 参考訳(メタデータ) (2022-03-12T09:40:29Z) - CrowdFormer: Weakly-supervised Crowd counting with Improved
Generalizability [2.8174125805742416]
本稿では,ピラミッド・ビジョン・トランスを用いた群集カウント手法を提案する。
我々の手法は,ベンチマーククラウドデータセットの最先端技術に匹敵するものである。
論文 参考訳(メタデータ) (2022-03-07T23:10:40Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - TransCrowd: Weakly-Supervised Crowd Counting with Transformer [56.84516562735186]
今回提案するTransCrowdは、Transformerに基づくシーケンス・ツー・カウントの観点から、監視の弱い群衆カウント問題を再構成する。
5つのベンチマークデータセットの実験は、提案されたTransCrowdが、弱い監視されたCNNベースのカウント方法すべてと比較して優れたパフォーマンスを達成することを示しています。
論文 参考訳(メタデータ) (2021-04-19T08:12:50Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。