論文の概要: SOFA-Net: Second-Order and First-order Attention Network for Crowd
Counting
- arxiv url: http://arxiv.org/abs/2008.03723v1
- Date: Sun, 9 Aug 2020 13:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:26:17.364114
- Title: SOFA-Net: Second-Order and First-order Attention Network for Crowd
Counting
- Title(参考訳): SOFA-Net: クラウドカウントのための2次および1次アテンションネットワーク
- Authors: Haoran Duan, Shidong Wang, Yu Guan
- Abstract要約: 本稿では, 高密度頭部におけるチャネルワイド空間情報の選択性を維持するために, 第二次及び第一次注意ネットワーク(SOFA-Net)を提案する。
提案手法を4つの公開データセット上で評価し,その多くが最先端に到達した。
- 参考スコア(独自算出の注目度): 17.869365942837938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated crowd counting from images/videos has attracted more attention in
recent years because of its wide application in smart cities. But modelling the
dense crowd heads is challenging and most of the existing works become less
reliable. To obtain the appropriate crowd representation, in this work we
proposed SOFA-Net(Second-Order and First-order Attention Network): second-order
statistics were extracted to retain selectivity of the channel-wise spatial
information for dense heads while first-order statistics, which can enhance the
feature discrimination for the heads' areas, were used as complementary
information. Via a multi-stream architecture, the proposed second/first-order
statistics were learned and transformed into attention for robust
representation refinement. We evaluated our method on four public datasets and
the performance reached state-of-the-art on most of them. Extensive experiments
were also conducted to study the components in the proposed SOFA-Net, and the
results suggested the high-capability of second/first-order statistics on
modelling crowd in challenging scenarios. To the best of our knowledge, we are
the first work to explore the second/first-order statistics for crowd counting.
- Abstract(参考訳): 近年、スマートシティーに広範に応用されているため、画像や動画からの群衆自動カウントが注目されている。
しかし、密集した群衆をモデル化することは困難であり、既存の作品のほとんどが信頼性が低下する。
本研究で提案したSOFA-Net(Second-Order and First-order Attention Network)では,高密度頭部のチャネルワイド空間情報の選択性を維持するために2次統計を抽出し,頭部領域の特徴識別を強化する1次統計を補完情報として用いた。
マルチストリームアーキテクチャにより,提案する2次/1次統計を学習し,ロバスト表現の洗練に注意を向けた。
提案手法を4つの公開データセットで評価し,そのほとんどは最新技術に到達した。
また,提案するsofa-netの構成成分について広範な実験を行い,課題シナリオにおけるモデル群における2次・1次統計の高機能化を示唆した。
私たちの知る限りでは、クラウドカウントの2/1次統計を探求する最初の仕事です。
関連論文リスト
- Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained
Ship Classification [62.425462136772666]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Semi-Supervised Crowd Counting from Unlabeled Data [19.990275518280427]
群衆の行動分析は、スマートシティの構築に役立つ日々の交通統計と計画に役立つ。
最近の研究は有望なパフォーマンスを達成したが、高価な群衆アノテーションで監督されたパラダイムに依存していた。
我々は、ラベル付き/ラベル付き両方のデータを堅牢なクラウドカウントに活用できる半教師付き学習フレームワークである$S4textitCrowd$を提案した。
論文 参考訳(メタデータ) (2021-08-31T16:51:00Z) - Sensing population distribution from satellite imagery via deep
learning: model selection, neighboring effect, and systematic biases [16.82118960055405]
この研究は、リモートセンシング画像から人口分布を推定する、最先端のディープラーニングモデルの性能をクロスコンパートメントする最初の試みである。
DenseNetは、他の3モデルよりも優れており、VGGは、選択された隣のシナリオすべてでメトリクスを評価する上で、最悪のパフォーマンスを持っている。
選択されたディープラーニングモデルは、近隣のサイズに関係なく、疎密な画像パッチと密密な画像パッチを過大評価する傾向にある、注目すべき普遍バイアスが存在する。
論文 参考訳(メタデータ) (2021-03-03T03:40:24Z) - Scale-Aware Network with Regional and Semantic Attentions for Crowd
Counting under Cluttered Background [7.108205342578417]
本稿では,地域的,意味的に注意を向けるスケールアウェア群数ネットワーク(saccn)を提案する。
提案するsaccnは,地域的・意味的自己照査機構を適用し,群衆と背景を区別する。
すべてのコードと事前トレーニングされたモデルはすぐにリリースされる。
論文 参考訳(メタデータ) (2021-01-05T12:20:10Z) - Semi-supervised Facial Action Unit Intensity Estimation with Contrastive
Learning [54.90704746573636]
提案手法では,手動でキーフレームを選択する必要はなく,2%の注釈付きフレームで最先端の結果を生成できる。
提案手法は, ランダムに選択したデータに対してわずか2%の費用で作業した場合に, 既存の手法よりも優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2020-11-03T17:35:57Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z) - Active Crowd Counting with Limited Supervision [13.09054893296829]
本稿では,限られた監督下で正確な群集カウントを可能にする能動的学習フレームワークを提案する。
まず、データセットの最も情報性の高い画像に注釈を付けるためのアクティブなラベリング戦略を導入し、その上にカウントモデルを学習する。
ラベリング予算が満たされた最後のサイクルでは、大量の未ラベルデータも利用される。
論文 参考訳(メタデータ) (2020-07-13T12:07:25Z) - Predicting Livelihood Indicators from Community-Generated Street-Level
Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。
全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T18:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。