論文の概要: Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes
- arxiv url: http://arxiv.org/abs/2310.10352v3
- Date: Sat, 20 Apr 2024 23:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:32:57.997039
- Title: Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes
- Title(参考訳): 文脈モデリングによる半監督された群集数:群集場面の全体的理解を促進する
- Authors: Yifei Qian, Xiaopeng Hong, Zhongliang Guo, Ognjen Arandjelović, Carl R. Donovan,
- Abstract要約: 本稿では,信頼度の高い群集カウントモデルをトレーニングするための,新しい半教師付き手法を提案する。
モデルの本質的な'サブタイズ'能力を育み、領域の数を正確に見積もることができる。
提案手法は,従来の手法を,挑戦的ベンチマークにおいて大きな差で上回り,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 19.987151025364067
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To alleviate the heavy annotation burden for training a reliable crowd counting model and thus make the model more practicable and accurate by being able to benefit from more data, this paper presents a new semi-supervised method based on the mean teacher framework. When there is a scarcity of labeled data available, the model is prone to overfit local patches. Within such contexts, the conventional approach of solely improving the accuracy of local patch predictions through unlabeled data proves inadequate. Consequently, we propose a more nuanced approach: fostering the model's intrinsic 'subitizing' capability. This ability allows the model to accurately estimate the count in regions by leveraging its understanding of the crowd scenes, mirroring the human cognitive process. To achieve this goal, we apply masking on unlabeled data, guiding the model to make predictions for these masked patches based on the holistic cues. Furthermore, to help with feature learning, herein we incorporate a fine-grained density classification task. Our method is general and applicable to most existing crowd counting methods as it doesn't have strict structural or loss constraints. In addition, we observe that the model trained with our framework exhibits a 'subitizing'-like behavior. It accurately predicts low-density regions with only a 'glance', while incorporating local details to predict high-density regions. Our method achieves the state-of-the-art performance, surpassing previous approaches by a large margin on challenging benchmarks such as ShanghaiTech A and UCF-QNRF. The code is available at: https://github.com/cha15yq/MRC-Crowd.
- Abstract(参考訳): そこで本研究では,信頼度の高い群集数モデルの訓練に要する重いアノテーション負担を軽減し,より多くのデータを活用することで,モデルをより実践的かつ正確にするため,教師の枠組みに基づいた新たな半教師方式を提案する。
ラベル付きデータが不足している場合には、ローカルパッチに過度に適合する傾向にある。
このような状況下では、ラベルなしデータによる局所パッチ予測の精度を単に改善するという従来のアプローチは不十分である。
そこで本研究では,モデル固有の「従属化」能力の育成という,よりニュアンスなアプローチを提案する。
この能力により、モデルは群衆シーンの理解を活用し、人間の認知過程を反映することで、地域の数を正確に見積もることができる。
この目的を達成するために、ラベルのないデータにマスキングを適用し、全体的手がかりに基づいてこれらのマスキングされたパッチの予測をモデルに導く。
さらに,特徴学習を支援するために,細粒度密度分類タスクを組み込んだ。
本手法は, 厳密な構造制約や損失制約を伴わないため, 既存の群集カウント法に適用可能である。
さらに、我々のフレームワークでトレーニングされたモデルが「補助的」な振る舞いを示すことを観察する。
高密度領域を正確に予測し、局所的な詳細を組み込んで高密度領域を予測する。
提案手法は,上海技術AやUCF-QNRFといった挑戦的なベンチマークにおいて,従来のアプローチをはるかに上回り,最先端の性能を実現する。
コードは、https://github.com/cha15yq/MRC-Crowd.comで入手できる。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models [15.50128790503447]
我々はMin-K%++という名前の事前学習データ検出のための新しい理論的動機付け手法を提案する。
具体的には,各入力次元に沿ったモデル分布の局所的な最大値であることを示す。
論文 参考訳(メタデータ) (2024-04-03T04:25:01Z) - Robust Unsupervised Crowd Counting and Localization with Adaptive
Resolution SAM [61.10712338956455]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z) - Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文 参考訳(メタデータ) (2020-03-26T23:32:43Z) - Towards Using Count-level Weak Supervision for Crowd Counting [55.58468947486247]
本稿では,少数の位置レベルのアノテーション(十分に教師された)と大量のカウントレベルのアノテーション(弱教師付き)からモデルを学習する,弱教師付き群集カウントの問題について検討する。
我々は、生成した密度マップの自由を制限するための正規化を構築するために、単純なyet効果のトレーニング戦略、すなわちMultiple Auxiliary Tasks Training (MATT)を考案した。
論文 参考訳(メタデータ) (2020-02-29T02:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。