論文の概要: RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting
- arxiv url: http://arxiv.org/abs/2601.20369v1
- Date: Wed, 28 Jan 2026 08:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.845746
- Title: RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting
- Title(参考訳): RepSFNet : 集団カウントのための構造的再パラメータ化を用いた単一核融合ネットワーク
- Authors: Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo, Jun-Wei Hsieh,
- Abstract要約: RepSFNetは、正確でリアルタイムな群衆推定のために設計された軽量アーキテクチャである。
RepSFNetは、最近の最先端の手法と比較して、推論遅延を最大34%削減しながら、競争精度を達成している。
- 参考スコア(独自算出の注目度): 6.895355763564631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowd counting remains challenging in variable-density scenes due to scale variations, occlusions, and the high computational cost of existing models. To address these issues, we propose RepSFNet (Reparameterized Single Fusion Network), a lightweight architecture designed for accurate and real-time crowd estimation. RepSFNet leverages a RepLK-ViT backbone with large reparameterized kernels for efficient multi-scale feature extraction. It further integrates a Feature Fusion module combining Atrous Spatial Pyramid Pooling (ASPP) and Context-Aware Network (CAN) to achieve robust, density-adaptive context modeling. A Concatenate Fusion module is employed to preserve spatial resolution and generate high-quality density maps. By avoiding attention mechanisms and multi-branch designs, RepSFNet significantly reduces parameters and computational complexity. The training objective combines Mean Squared Error and Optimal Transport loss to improve both count accuracy and spatial distribution alignment. Experiments conducted on ShanghaiTech, NWPU, and UCF-QNRF datasets demonstrate that RepSFNet achieves competitive accuracy while reducing inference latency by up to 34 percent compared to recent state-of-the-art methods, making it suitable for real-time and low-power edge computing applications.
- Abstract(参考訳): 群衆カウントは、スケールのバリエーション、閉塞、既存モデルの計算コストが高いため、変動密度シーンでは依然として困難である。
これらの問題に対処するために, 高精度かつリアルタイムな群集推定を目的とした軽量アーキテクチャであるRepSFNet(Reparameterized Single Fusion Network)を提案する。
RepSFNetは、大規模な再パラメータ化されたカーネルを持つRepLK-ViTバックボーンを利用して、効率的なマルチスケール特徴抽出を行う。
さらに、Atrous Space Pyramid Pooling (ASPP)とContext-Aware Network (CAN)を組み合わせて、堅牢で密度適応的なコンテキストモデリングを実現するFeature Fusionモジュールを統合する。
Concatenate Fusionモジュールは空間分解能を保ち、高品質な密度マップを生成するために使用される。
注意機構やマルチブランチ設計を避けることで、RepSFNetはパラメータと計算の複雑さを大幅に削減する。
トレーニングの目的は平均二乗誤差と最適輸送損失を組み合わせることで、カウント精度と空間分布アライメントを改善することである。
ShanghaiTech、NWPU、UCF-QNRFデータセットで実施された実験は、RepSFNetが最近の最先端の手法と比較して推論遅延を最大34%削減し、競合精度を達成し、リアルタイムおよび低消費電力エッジコンピューティングアプリケーションに適していることを示した。
関連論文リスト
- MAFNet:Multi-frequency Adaptive Fusion Network for Real-time Stereo Matching [2.0202997482095593]
効率的な2次元畳み込みのみを用いて高品質な不均一写像を生成するための多周波適応核融合ネットワーク(MAFNet)を提案する。
提案したMAFNetは,Scene FlowやKITTI 2015などの公開データセット上で,既存のリアルタイム手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-12-04T01:08:38Z) - Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [17.626181371045575]
我々は、SpikeFETと呼ばれる、最初の完全なSpyking Frame-Event Trackingフレームワークを提案する。
このネットワークは、進化的局所特徴抽出とトランスフォーマーに基づくグローバルモデリングをスパイキングパラダイム内で相乗的に統合する。
提案手法は既存の手法よりも優れたトラッキング精度を実現し,消費電力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-27T07:53:50Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Lightweight Deep Learning Framework for Accurate Particle Flow Energy Reconstruction [8.598010350935596]
本稿では,ディープラーニング再構築の枠組みを体系的に評価する。
重み付き平均2乗と誤差構造類似度指数を組み合わせたハイブリッド損失関数を設計する。
我々は,モーダル時間的相関とエネルギー変位非線形性を捉えるモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-10-08T11:49:18Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - Multi-Level Aggregation and Recursive Alignment Architecture for Efficient Parallel Inference Segmentation Network [18.47001817385548]
セグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。
実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。
我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。
論文 参考訳(メタデータ) (2024-02-03T22:51:17Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。