論文の概要: Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd Counting
- arxiv url: http://arxiv.org/abs/2503.17984v1
- Date: Sun, 23 Mar 2025 08:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:43.536459
- Title: Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd Counting
- Title(参考訳): 味がより良く、味が良くなった: ディヴァースデータと強力なモデルが、半スーパービジョンの群衆数を増やす
- Authors: Maochen Yang, Zekun Li, Jian Zhang, Lei Qi, Yinghuan Shi,
- Abstract要約: 人口密度の高いシーンのアノテーションコストに対処するためには,半教師による群集カウントが不可欠である。
我々は、データとモデルの両方に重点を置いた、テイスト・モア・テイスト・ベター(TMTB)と呼ばれる新しいフレームワークを提案する。
我々は,4つのベンチマークデータセットの広範な実験を行い,提案手法が最先端の手法よりも大きなマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 28.41718434282077
- License:
- Abstract: Semi-supervised crowd counting is crucial for addressing the high annotation costs of densely populated scenes. Although several methods based on pseudo-labeling have been proposed, it remains challenging to effectively and accurately utilize unlabeled data. In this paper, we propose a novel framework called Taste More Taste Better (TMTB), which emphasizes both data and model aspects. Firstly, we explore a data augmentation technique well-suited for the crowd counting task. By inpainting the background regions, this technique can effectively enhance data diversity while preserving the fidelity of the entire scenes. Secondly, we introduce the Visual State Space Model as backbone to capture the global context information from crowd scenes, which is crucial for extremely crowded, low-light, and adverse weather scenarios. In addition to the traditional regression head for exact prediction, we employ an Anti-Noise classification head to provide less exact but more accurate supervision, since the regression head is sensitive to noise in manual annotations. We conduct extensive experiments on four benchmark datasets and show that our method outperforms state-of-the-art methods by a large margin. Code is publicly available on https://github.com/syhien/taste_more_taste_better.
- Abstract(参考訳): 人口密度の高いシーンのアノテーションコストに対処するためには,半教師による群集カウントが不可欠である。
擬似ラベルに基づくいくつかの手法が提案されているが、未ラベルデータの有効かつ正確な利用は困難である。
本稿では,データとモデルの両方に重点を置く,テイスト・モア・テイスト・ベター (TMTB) という新しいフレームワークを提案する。
まず,群集カウント作業に適したデータ拡張手法について検討する。
背景領域を塗布することで、シーン全体の忠実さを保ちながら、データの多様性を効果的に向上させることができる。
第2に,視覚状態空間モデル(Visual State Space Model)をバックボーンとして導入し,非常に混み合った,低照度で,悪天候のシナリオに欠かせない,観客シーンからグローバルなコンテキスト情報をキャプチャする。
従来の回帰ヘッドに加えて,手動によるアノテーションのノイズに敏感であるため,より正確で正確な監視を行うために,アンチノイズ分類ヘッドを用いる。
我々は,4つのベンチマークデータセットの広範な実験を行い,提案手法が最先端の手法よりも大きなマージンで優れていることを示す。
コードはhttps://github.com/syhien/taste_more_taste_better.comで公開されている。
関連論文リスト
- Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes [19.987151025364067]
本稿では,信頼度の高い群集カウントモデルをトレーニングするための,新しい半教師付き手法を提案する。
モデルの本質的な'サブタイズ'能力を育み、領域の数を正確に見積もることができる。
提案手法は,従来の手法を,挑戦的ベンチマークにおいて大きな差で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-16T12:42:43Z) - Cross-head Supervision for Crowd Counting with Noisy Annotations [37.542109747496376]
ノイズの多いアノテーションはモデルのトレーニング、特に密度マップベースのメソッドに大きく影響します。
本研究では, 1つの畳み込み頭部と1つの変圧器頭部を有する群集カウントモデルを提案する。
結果のモデルであるCHS-Netは、様々な種類の帰納バイアスを相乗化して、より良いカウントを行うことができる。
論文 参考訳(メタデータ) (2023-03-16T11:45:52Z) - Urban Scene Semantic Segmentation with Low-Cost Coarse Annotation [107.72926721837726]
粗いアノテーションは、セマンティックセグメンテーションモデルをトレーニングするための、低コストで非常に効果的な代替手段である。
粗い注釈付きデータの未ラベル領域の擬似ラベルを生成する粗大な自己学習フレームワークを提案する。
提案手法は,アノテーションの予算のごく一部で完全に注釈付けされたデータに匹敵する性能が得られるため,大幅な性能向上とアノテーションのコストトレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-15T15:43:42Z) - CrowdFormer: Weakly-supervised Crowd counting with Improved
Generalizability [2.8174125805742416]
本稿では,ピラミッド・ビジョン・トランスを用いた群集カウント手法を提案する。
我々の手法は,ベンチマーククラウドデータセットの最先端技術に匹敵するものである。
論文 参考訳(メタデータ) (2022-03-07T23:10:40Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - SuctionNet-1Billion: A Large-Scale Benchmark for Suction Grasping [47.221326169627666]
吸引つかみのシール形成とレンチ抵抗を解析的に評価する新しい物理モデルを提案する。
現実世界の混乱したシナリオで収集された大規模データセットにアノテーションを生成するために、2段階の手法が採用されている。
連続運転空間における吸入ポーズを評価するための標準オンライン評価システムを提案する。
論文 参考訳(メタデータ) (2021-03-23T05:02:52Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。