論文の概要: Joint CNN and Transformer Network via weakly supervised Learning for
efficient crowd counting
- arxiv url: http://arxiv.org/abs/2203.06388v1
- Date: Sat, 12 Mar 2022 09:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 15:13:49.159465
- Title: Joint CNN and Transformer Network via weakly supervised Learning for
efficient crowd counting
- Title(参考訳): 効率的な群集カウントのための弱教師付き学習によるCNNとトランスフォーマーネットワーク
- Authors: Fusen Wang, Kai Liu, Fei Long, Nong Sang, Xiaofeng Xia, Jun Sang
- Abstract要約: 我々は,群集カウントのための弱教師付き学習を通して,共同CNNとトランスフォーマーネットワーク(JCTNet)を提案する。
JCTNetは、効果的に群集領域に集中でき、5つの主流データセット上で、より弱い教師付きカウント性能を得ることができる。
- 参考スコア(独自算出の注目度): 22.040942519355628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, for crowd counting, the fully supervised methods via density map
estimation are the mainstream research directions. However, such methods need
location-level annotation of persons in an image, which is time-consuming and
laborious. Therefore, the weakly supervised method just relying upon the
count-level annotation is urgently needed. Since CNN is not suitable for
modeling the global context and the interactions between image patches, crowd
counting with weakly supervised learning via CNN generally can not show good
performance. The weakly supervised model via Transformer was sequentially
proposed to model the global context and learn contrast features. However, the
transformer directly partitions the crowd images into a series of tokens, which
may not be a good choice due to each pedestrian being an independent
individual, and the parameter number of the network is very large. Hence, we
propose a Joint CNN and Transformer Network (JCTNet) via weakly supervised
learning for crowd counting in this paper. JCTNet consists of three parts: CNN
feature extraction module (CFM), Transformer feature extraction module (TFM),
and counting regression module (CRM). In particular, the CFM extracts crowd
semantic information features, then sends their patch partitions to TRM for
modeling global context, and CRM is used to predict the number of people.
Extensive experiments and visualizations demonstrate that JCTNet can
effectively focus on the crowd regions and obtain superior weakly supervised
counting performance on five mainstream datasets. The number of parameters of
the model can be reduced by about 67%~73% compared with the pure Transformer
works. We also tried to explain the phenomenon that a model constrained only by
count-level annotations can still focus on the crowd regions. We believe our
work can promote further research in this field.
- Abstract(参考訳): 現在,クラウドカウントでは,密度マップ推定による全監督手法が主流となっている。
しかし,このような手法では画像中の人物の位置レベルのアノテーションが必要である。
そのため、カウントレベルアノテーションのみに依存する弱い教師付きメソッドが緊急に必要となる。
CNNは,グローバルコンテキストとイメージパッチ間のインタラクションをモデル化するのに適さないため,CNNによる弱教師付き学習による群集カウントは,一般的には良好な性能を示すことができない。
グローバルコンテキストのモデル化とコントラスト特徴の学習のために,トランスフォーマによる弱教師付きモデルが順次提案されている。
しかし, 変圧器は, 群集画像を一連のトークンに分割するが, 個々の歩行者が独立しているため, ネットワークのパラメータ数が非常に大きいため, よい選択ではない。
そこで本稿では, 群集カウントのための弱教師付き学習を通して, 共同CNNとトランスフォーマーネットワーク(JCTNet)を提案する。
JCTNetは、CNN機能抽出モジュール(CFM)、Transformer機能抽出モジュール(TFM)、カウントレグレッションモジュール(CRM)の3つの部分で構成されている。
特に、CFMは群衆の意味情報を抽出し、そのパッチパーティションをTRMに送信してグローバルコンテキストをモデル化し、CRMを使って人の数を予測している。
大規模な実験と可視化により、JCTNetは、群集領域に効果的に集中し、5つの主流データセットにおいて、より弱い教師付きカウント性能を得ることができることが示された。
モデルのパラメータの数は、純粋なTransformerの作業に比べて約67%から73%削減できる。
また,カウントレベルアノテーションのみに制約されたモデルが群集領域に集中できるという現象についても説明を試みた。
我々はこの分野でのさらなる研究を促進することができると信じている。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - CrowdFormer: Weakly-supervised Crowd counting with Improved
Generalizability [2.8174125805742416]
本稿では,ピラミッド・ビジョン・トランスを用いた群集カウント手法を提案する。
我々の手法は,ベンチマーククラウドデータセットの最先端技術に匹敵するものである。
論文 参考訳(メタデータ) (2022-03-07T23:10:40Z) - CCTrans: Simplifying and Improving Crowd Counting with Transformer [7.597392692171026]
設計パイプラインをシンプルにするために,CCTransと呼ばれる簡単なアプローチを提案する。
具体的には、ピラミッド・ビジョン・トランスフォーマーのバックボーンを用いて、グローバルな観衆情報をキャプチャする。
提案手法は, 弱い, 完全に監督された群集カウントにおいて, いくつかのベンチマークにおいて, 最新の結果が得られる。
論文 参考訳(メタデータ) (2021-09-29T15:13:10Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - TransCrowd: Weakly-Supervised Crowd Counting with Transformer [56.84516562735186]
今回提案するTransCrowdは、Transformerに基づくシーケンス・ツー・カウントの観点から、監視の弱い群衆カウント問題を再構成する。
5つのベンチマークデータセットの実験は、提案されたTransCrowdが、弱い監視されたCNNベースのカウント方法すべてと比較して優れたパフォーマンスを達成することを示しています。
論文 参考訳(メタデータ) (2021-04-19T08:12:50Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - PSCNet: Pyramidal Scale and Global Context Guided Network for Crowd
Counting [44.306790250158954]
本稿では,ピラミッドスケールモジュール (PSM) とグローバルコンテキストモジュール (GCM) に基づく新しい群集カウント手法を提案する。
PSMは、異なる画像スケールの群衆の境界を識別できる多スケール情報を適応的にキャプチャするために使用される。
GCMは、機能マップのチャネル全体のインタラクティブな情報をより効率的にするために、低複雑さと軽量な方法で考案されています。
論文 参考訳(メタデータ) (2020-12-07T11:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。