論文の概要: TCFormer: A 5M-Parameter Transformer with Density-Guided Aggregation for Weakly-Supervised Crowd Counting
- arxiv url: http://arxiv.org/abs/2512.22203v1
- Date: Sun, 21 Dec 2025 10:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.883573
- Title: TCFormer: A 5M-Parameter Transformer with Density-Guided Aggregation for Weakly-Supervised Crowd Counting
- Title(参考訳): TC TC TCer: 5Mパラメータ変換器と密度誘導アグリゲーション
- Authors: Qiang Guo, Rubo Zhang, Bingbing Zhang, Junjie Liu, Jianqing Liu,
- Abstract要約: TC TCTCerは、小型で超軽量で、トランスフォーマーをベースとしたクラウドカウントフレームワークで、500万のパラメータしか持たず、競争的なパフォーマンスを実現している。
空間的監督の欠如を補うため,Learningable Density-Weighted Averaging Moduleと呼ばれる機能集約機構を設計した。
本稿では,集団密度を異なるグレードに識別する密度レベル分類損失を提案する。
- 参考スコア(独自算出の注目度): 13.816243638358408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting typically relies on labor-intensive point-level annotations and computationally intensive backbones, restricting its scalability and deployment in resource-constrained environments. To address these challenges, this paper proposes the TCFormer, a tiny, ultra-lightweight, weakly-supervised transformer-based crowd counting framework with only 5 million parameters that achieves competitive performance. Firstly, a powerful yet efficient vision transformer is adopted as the feature extractor, the global context-aware capabilities of which provides semantic meaningful crowd features with a minimal memory footprint. Secondly, to compensate for the lack of spatial supervision, we design a feature aggregation mechanism termed the Learnable Density-Weighted Averaging module. This module dynamically re-weights local tokens according to predicted density scores, enabling the network to adaptively modulate regional features based on their specific density characteristics without the need for additional annotations. Furthermore, this paper introduces a density-level classification loss, which discretizes crowd density into distinct grades, thereby regularizing the training process and enhancing the model's classification power across varying levels of crowd density. Therefore, although TCformer is trained under a weakly-supervised paradigm utilizing only image-level global counts, the joint optimization of count and density-level losses enables the framework to achieve high estimation accuracy. Extensive experiments on four benchmarks including ShanghaiTech A/B, UCF-QNRF, and NWPU datasets demonstrate that our approach strikes a superior trade-off between parameter efficiency and counting accuracy and can be a good solution for crowd counting tasks in edge devices.
- Abstract(参考訳): クラウドカウントは通常、労働集約的なポイントレベルのアノテーションと計算集約的なバックボーンに依存し、リソース制約のある環境でのスケーラビリティとデプロイメントを制限する。
これらの課題に対処するため,本研究では,500万個のパラメータしか持たない小型で軽量で,教師の弱いトランスフォーマーベースの群集カウントフレームワークであるTCFormerを提案する。
第一に、機能抽出器として強力な高効率な視覚変換器が採用され、そのグローバルなコンテキスト認識機能により、メモリフットプリントが最小限に抑えられるセマンティックな群衆機能を提供する。
次に,空間的監督の欠如を補うため,学習可能密度重み付けモジュールと呼ばれる特徴集約機構を設計する。
このモジュールは、予測された密度スコアに従って局所トークンを動的に再重み付けし、追加アノテーションを必要とせずに、特定の密度特性に基づいて局所的特徴を適応的に調整することができる。
さらに, 集団密度を異なるグレードに分類し, 学習過程を規則化し, 集団密度の異なるレベルにわたってモデルの分類力を向上する密度レベル分類損失を提案する。
したがって,TCformerは画像レベルのグローバルカウントのみを利用して,弱い教師付きパラダイムの下で訓練されるが,数値と密度レベルの損失の合同最適化により,高い推定精度を実現することができる。
hanghaiTech A/B, UCF-QNRF, NWPUデータセットを含む4つのベンチマークの大規模な実験により、我々の手法はパラメータ効率とカウント精度のトレードオフに優れたものであり、エッジデバイスにおけるクラウドカウントタスクの優れた解であることが示された。
関連論文リスト
- Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification [3.6907522136316975]
CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。
モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。
ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
論文 参考訳(メタデータ) (2025-12-24T02:30:23Z) - CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects [2.321156185872456]
マルチスケール機能拡張と適応最適化を統合した新しいアーキテクチャであるE-FPN-BSを提案する。
第一に、私たちのContext Enhancement Module(CEM)は、効率的なグローバルな融合のために高レベルな特徴を整列し、圧縮するためにデュアルブランチ処理を採用している。
第2に、フォアグラウンド-バックグラウンド分離モジュール(FBSM)は、識別領域を動的に増幅する空間ゲーティングマスクを生成する。
論文 参考訳(メタデータ) (2025-06-11T16:13:38Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - VAE-based Feature Disentanglement for Data Augmentation and Compression in Generalized GNSS Interference Classification [42.14439854721613]
干渉の正確な分類を可能にする重要な潜伏特徴を抽出するために, アンタングル化のための変分オートエンコーダ (VAE) を提案する。
提案するVAEは512から8,192の範囲のデータ圧縮率を実現し,99.92%の精度を実現している。
論文 参考訳(メタデータ) (2025-04-14T13:38:00Z) - A feature refinement module for light-weight semantic segmentation network [11.285793559719702]
本稿では,軽量ネットワークのセマンティック情報を得る能力を向上させるために,新しいセマンティックセマンティックセマンティクス手法を提案する。
Cityscapes と Bdd100K のデータセットを用いて,提案手法が精度と計算コストのトレードオフを期待できることを示す。
論文 参考訳(メタデータ) (2024-12-11T03:31:20Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Towards the Uncharted: Density-Descending Feature Perturbation for Semi-supervised Semantic Segmentation [51.66997548477913]
本稿では,DDFP(Dedentity-Descending Feature Perturbation)という特徴レベルの一貫性学習フレームワークを提案する。
半教師付き学習における低密度分離仮定にインスパイアされた私たちの重要な洞察は、特徴密度はセグメンテーション分類器が探索する最も有望な方向の光を放つことができるということである。
提案したDFFPは、機能レベルの摂動に関する他の設計よりも優れており、Pascal VOCとCityscapesのデータセット上でのアートパフォーマンスの状態を示している。
論文 参考訳(メタデータ) (2024-03-11T06:59:05Z) - Semi-supervised Crowd Counting via Density Agency [57.3635501421658]
我々は、学習可能な補助構造、すなわち密度エージェンシーを構築し、認識された前景の地域特徴を対応する密度サブクラスに近づける。
第2に,バックボーン特徴抽出器を統合するために,密度誘導型コントラスト学習損失を提案する。
第3に,前景の機能を改良するためにトランス構造を用いて回帰ヘッドを構築する。
論文 参考訳(メタデータ) (2022-09-07T06:34:00Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - PSCNet: Pyramidal Scale and Global Context Guided Network for Crowd
Counting [44.306790250158954]
本稿では,ピラミッドスケールモジュール (PSM) とグローバルコンテキストモジュール (GCM) に基づく新しい群集カウント手法を提案する。
PSMは、異なる画像スケールの群衆の境界を識別できる多スケール情報を適応的にキャプチャするために使用される。
GCMは、機能マップのチャネル全体のインタラクティブな情報をより効率的にするために、低複雑さと軽量な方法で考案されています。
論文 参考訳(メタデータ) (2020-12-07T11:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。