論文の概要: Exploit the potential of Multi-column architecture for Crowd Counting
- arxiv url: http://arxiv.org/abs/2007.05779v2
- Date: Tue, 28 Jul 2020 09:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 13:17:49.982816
- Title: Exploit the potential of Multi-column architecture for Crowd Counting
- Title(参考訳): クラウドカウントにおけるマルチカラムアーキテクチャの可能性
- Authors: Junhao Cheng, Zhuojun Chen, XinYu Zhang, Yizhou Li, Xiaoyuan Jing
- Abstract要約: ピラミッドスケールネットワーク(PSNet)と呼ばれる新しい群集カウントフレームワークを提案する。
スケール制限のために、3つのピラミッドスケールモジュール(PSM)を採用し、マルチスケール機能を効率的にキャプチャする。
特徴類似性については,多列分散損失という新しい損失関数を導入し,各列が学習した特徴を適切に相違させる。
- 参考スコア(独自算出の注目度): 16.186589975116387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting is an important yet challenging task in computer vision due to
serious occlusions, complex background and large scale variations, etc.
Multi-column architecture is widely adopted to overcome these challenges,
yielding state-of-the-art performance in many public benchmarks. However, there
still are two issues in such design: scale limitation and feature similarity.
Further performance improvements are thus restricted. In this paper, we propose
a novel crowd counting framework called Pyramid Scale Network (PSNet) to
explicitly address these issues. Specifically, for scale limitation, we adopt
three Pyramid Scale Modules (PSM) to efficiently capture multi-scale features,
which integrate a message passing mechanism and an attention mechanism into
multi-column architecture. Moreover, for feature similarity, a novel loss
function named Multi-column variance loss is introduced to make the features
learned by each column in PSM appropriately different from each other. To the
best of our knowledge, PSNet is the first work to explicitly address scale
limitation and feature similarity in multi-column design. Extensive experiments
on five benchmark datasets demonstrate the effectiveness of the proposed
innovations as well as the superior performance over the state-of-the-art. Our
code is publicly available at: https://github.com/oahunc/Pyramid_Scale_Network
- Abstract(参考訳): 集団カウントは、深刻な閉塞、複雑な背景、大規模な変動などにより、コンピュータビジョンにおいて重要で難しいタスクである。
マルチカラムアーキテクチャはこれらの課題を克服するために広く採用されており、多くの公開ベンチマークで最先端のパフォーマンスが得られる。
しかし、このような設計にはスケール制限と機能類似性という2つの問題がある。
さらなる性能向上は制限されている。
本稿では,これらの問題に対処するために,Praamid Scale Network (PSNet) と呼ばれる新しいクラウドカウントフレームワークを提案する。
具体的には,メッセージパッシング機構とアテンション機構をマルチカラムアーキテクチャに統合したマルチスケール機能を効率的に捉えるために,3つのピラミッドスケールモジュール(psm)を採用した。
さらに,特徴類似性のために,複数列分散損失と呼ばれる新しい損失関数を導入し,各列で学習した特徴をpsmで適切に区別する。
我々の知る限りでは、PSNetはマルチカラム設計におけるスケール制限と特徴類似性を明示的に扱う最初の試みである。
5つのベンチマークデータセットに関する広範な実験は、提案されたイノベーションの有効性と最先端よりも優れたパフォーマンスを示している。
私たちのコードは、https://github.com/oahunc/Pyramid_Scale_Networkで公開されています。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。
Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-31T09:20:59Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Towards efficient feature sharing in MIMO architectures [102.40140369542755]
マルチインプットのマルチアウトプットアーキテクチャでは、ひとつのベースネットワーク内でマルチワークをトレーニングし、サブネットワーク予測を平均化し、無料でアンサンブルの恩恵を受けることを提案している。
相対的な成功にもかかわらず、これらのアーキテクチャはパラメータの使用に不便である。
この論文では、学習したサブネットワークは、より小さなモバイルやAR/VRデバイスに適用性を制限する汎用的な機能でさえも共有できない点を強調します。
論文 参考訳(メタデータ) (2022-05-20T12:33:34Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Query-by-Example Keyword Spotting system using Multi-head Attention and
Softtriple Loss [1.179778723980276]
本稿では,ユーザ定義キーワードスポッティングタスクの検索を行うニューラルネットワークアーキテクチャを提案する。
効果的な特徴抽出のために、マルチレイヤーgrgの上にマルチヘッドアテンションモジュールを付加する。
また,三重項損失とソフトマックス損失の組み合わせであるソフトトリプル損失を採用し,その効果を示す。
論文 参考訳(メタデータ) (2021-02-14T03:37:37Z) - Efficient Human Pose Estimation by Learning Deeply Aggregated
Representations [67.24496300046255]
深く集約された表現を学習することで、効率的な人間ポーズ推定ネットワーク(DANet)を提案する。
私たちのネットワークは、より小さなモデルの複雑さで、同等またはより良い精度を達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:58:07Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z) - DFNet: Discriminative feature extraction and integration network for
salient object detection [6.959742268104327]
畳み込みニューラルネットワークを用いた唾液度検出における課題の2つの側面に焦点をあてる。
第一に、様々な大きさに有能な物体が現れるため、単一スケールの畳み込みは適切な大きさを捉えない。
第二に、マルチレベル機能の使用は、モデルがローカルコンテキストとグローバルコンテキストの両方を使用するのに役立つ。
論文 参考訳(メタデータ) (2020-04-03T13:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。