論文の概要: Multi-Resolution Fusion and Multi-scale Input Priors Based Crowd
Counting
- arxiv url: http://arxiv.org/abs/2010.01664v1
- Date: Sun, 4 Oct 2020 19:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:24:57.505281
- Title: Multi-Resolution Fusion and Multi-scale Input Priors Based Crowd
Counting
- Title(参考訳): マルチリゾリューションフュージョンとマルチスケール入力プライオリティに基づく集団カウント
- Authors: Usman Sajid, Wenchi Ma, Guanghui Wang
- Abstract要約: 本稿では,マルチレゾリューション・フュージョンに基づくエンドツーエンドのクラウドカウントネットワークを提案する。
PRMモジュールの効率的な代替として、3つの入力先が導入された。
提案手法は, クロスデータセット実験において, 最適な結果を得るために, より優れた一般化能力を有する。
- 参考スコア(独自算出の注目度): 20.467558675556173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting in still images is a challenging problem in practice due to
huge crowd-density variations, large perspective changes, severe occlusion, and
variable lighting conditions. The state-of-the-art patch rescaling module (PRM)
based approaches prove to be very effective in improving the crowd counting
performance. However, the PRM module requires an additional and compromising
crowd-density classification process. To address these issues and challenges,
the paper proposes a new multi-resolution fusion based end-to-end crowd
counting network. It employs three deep-layers based columns/branches, each
catering the respective crowd-density scale. These columns regularly fuse
(share) the information with each other. The network is divided into three
phases with each phase containing one or more columns. Three input priors are
introduced to serve as an efficient and effective alternative to the PRM
module, without requiring any additional classification operations. Along with
the final crowd count regression head, the network also contains three
auxiliary crowd estimation regression heads, which are strategically placed at
each phase end to boost the overall performance. Comprehensive experiments on
three benchmark datasets demonstrate that the proposed approach outperforms all
the state-of-the-art models under the RMSE evaluation metric. The proposed
approach also has better generalization capability with the best results during
the cross-dataset experiments.
- Abstract(参考訳): 群衆密度の変化、大きな視点の変化、厳密な閉塞、変光条件が原因で、静止画像中の群衆のカウントは現実的に難しい問題である。
最新のパッチ再スケーリングモジュール(PRM)ベースのアプローチは、群衆カウントのパフォーマンスを改善するのに非常に効果的である。
しかし、PRMモジュールは、追加で複雑な群衆密度分類プロセスを必要とする。
これらの課題と課題に対処するため,本論文では,マルチレゾリューションに基づくエンドツーエンドのクラウドカウントネットワークを提案する。
3つのディープレイヤーベースのコラム/ブランチを使用しており、それぞれが群衆密度スケールに対応している。
これらの列は定期的に情報を融合(共有)する。
ネットワークは、それぞれ1つ以上の列を含む3つのフェーズに分けられる。
3つの入力先は、追加の分類操作を必要とせずに、PRMモジュールの効率的かつ効果的な代替品として機能するために導入された。
最終観衆数回帰ヘッドとともに、ネットワークは3つの補助観衆推定回帰ヘッドを含み、各相端に戦略的に配置され、全体的な性能が向上する。
3つのベンチマークデータセットに関する総合的な実験により、提案手法はRMSE評価基準の下での最先端モデルよりも優れていることが示された。
提案手法は, クロスデータセット実験において, 最適な結果を得るために, より優れた一般化能力を有する。
関連論文リスト
- Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。
本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。
我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文 参考訳(メタデータ) (2024-07-10T10:13:11Z) - SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion [59.96233305733875]
時系列予測は、金融、交通管理、エネルギー、医療など様々な分野で重要な役割を果たしている。
いくつかの方法は、注意やミキサーのようなメカニズムを利用して、チャネル相関をキャプチャすることでこの問題に対処する。
本稿では,効率的なモデルであるSOFTS(Series-cOre Fused Time Series forecaster)を提案する。
論文 参考訳(メタデータ) (2024-04-22T14:06:35Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Towards More Effective PRM-based Crowd Counting via A Multi-resolution
Fusion and Attention Network [22.235440703471518]
PRMをベースとしたマルチレゾリューションとマルチタスクのクラウドカウントネットワークを提案する。
提案モデルは3つの深層分岐で構成され,各枝は異なる解像度の特徴写像を生成する。
これらの深部分岐を PRM モジュールや早期適応ブロックと統合することは、元の PRM ベースのスキームよりも効果的であることが証明されている。
論文 参考訳(メタデータ) (2021-12-17T18:17:02Z) - Audio-Visual Transformer Based Crowd Counting [27.464399610071418]
本稿では,クラウドカウントにおける重要な課題に対処する,新しいマルチタスクネットワークを提案する。
提案するネットワークは,PIRとPCE情報を補助的かつ明示的な画像パッチ重要度ランキング(英語版)(英語版)(英語版)(英語版) (PIR) の概念を導入している。
リッチな視覚的特徴を得るために,トランスフォーマー方式の融合を両立させたマルチブランチ構造を提案する。
論文 参考訳(メタデータ) (2021-09-04T20:25:35Z) - Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT
Benchmark for Crowd Counting [109.32927895352685]
RGBT Crowd Counting (RGBT-CC) ベンチマークは2,030対のRGB熱画像と138,389人の注釈付き画像を含む。
マルチモーダルな群集カウントを容易にするために,クロスモーダルな協調表現学習フレームワークを提案する。
RGBT-CCベンチマークで行った実験は、RGBTの群集カウントにおけるフレームワークの有効性を示した。
論文 参考訳(メタデータ) (2020-12-08T16:18:29Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z) - Plug-and-Play Rescaling Based Crowd Counting in Static Images [24.150701096083242]
我々は,新しいイメージパッチ再スケーリングモジュール (PRM) と3つの独立したPRMを用いたクラウドカウント手法を提案する。
提案するフレームワークは,PRMモジュールを用いて特別な処理を必要とする画像領域(パッチ)を再スケールする。
論文 参考訳(メタデータ) (2020-01-06T21:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。