論文の概要: Local Information Matters: A Rethink of Crowd Counting
- arxiv url: http://arxiv.org/abs/2508.16970v1
- Date: Sat, 23 Aug 2025 09:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.274569
- Title: Local Information Matters: A Rethink of Crowd Counting
- Title(参考訳): 地域情報 - 群衆の数え方を再考する
- Authors: Tianhang Pan, Xiuyi Jia,
- Abstract要約: 本論文の動機は,画像のごく一部を個人が占める,群集カウントの本質的特徴を再考することにある。
これにより,モデルの局所的モデリング能力を強調する,クラウドカウントの新しいモデル設計原則を提案する。
LIMM(Local Information Matters Model)と呼ばれる群集カウントモデルの設計と原則に従う。
- 参考スコア(独自算出の注目度): 16.700460568894012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The motivation of this paper originates from rethinking an essential characteristic of crowd counting: individuals (heads of humans) in the crowd counting task typically occupy a very small portion of the image. This characteristic has never been the focus of existing works: they typically use the same backbone as other visual tasks and pursue a large receptive field. This drives us to propose a new model design principle of crowd counting: emphasizing local modeling capability of the model. We follow the principle and design a crowd counting model named Local Information Matters Model (LIMM). The main innovation lies in two strategies: a window partitioning design that applies grid windows to the model input, and a window-wise contrastive learning design to enhance the model's ability to distinguish between local density levels. Moreover, a global attention module is applied to the end of the model to handle the occasionally occurring large-sized individuals. Extensive experiments on multiple public datasets illustrate that the proposed model shows a significant improvement in local modeling capability (8.7\% in MAE on the JHU-Crowd++ high-density subset for example), without compromising its ability to count large-sized ones, which achieves state-of-the-art performance. Code is available at: https://github.com/tianhangpan/LIMM.
- Abstract(参考訳): 本論文の動機は,群集カウント作業における個人(人間の頭)が画像のごく一部を占めるという,群集カウントの本質的特徴を再考することにある。
それらは通常、他の視覚的タスクと同じバックボーンを使用し、大きな受容野を追求する。
これにより,モデルの局所的モデリング能力を強調する,クラウドカウントの新しいモデル設計原則を提案する。
我々は,地域情報事項モデル (LIMM) と呼ばれる群集カウントモデルに従って設計する。
主な革新は、モデル入力にグリッドウィンドウを適用するウィンドウパーティショニング設計と、局所密度レベルを区別するモデルの能力を強化するウィンドウワイドコントラスト学習設計である。
さらに、時折発生する大規模な個人を扱うために、モデルの末尾にグローバルアテンションモジュールを適用した。
複数の公開データセットに関する大規模な実験は、提案モデルが局所モデリング能力(例えば、JHU-Crowd++の高密度サブセットのMAEの8.7\%)を大幅に改善したことを示している。
コードは、https://github.com/tianhangpan/LIMM.comで入手できる。
関連論文リスト
- Learning Counterfactually Decoupled Attention for Open-World Model Attribution [75.52873383916672]
本稿では,オープンワールドモデル帰属のためのCDAL法を提案する。
我々の手法は、特に目に見えない新規攻撃に対して、最先端のモデルを大きなマージンで継続的に改善する。
論文 参考訳(メタデータ) (2025-06-29T03:25:45Z) - GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Exploiting Behavioral Consistence for Universal User Representation [11.290137806288191]
我々は普遍的ユーザ表現モデルの開発に注力する。
得られた普遍表現には豊富な情報が含まれることが予想される。
行動データを普遍表現にエンコードする自己監視型ユーザモデリングネットワーク(SUMN)を提案する。
論文 参考訳(メタデータ) (2020-12-11T06:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。