論文の概要: A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting
- arxiv url: http://arxiv.org/abs/2401.05968v1
- Date: Thu, 11 Jan 2024 15:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:55:56.519333
- Title: A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting
- Title(参考訳): 資源制約付き群衆計数のための軽量機能融合アーキテクチャ
- Authors: Yashwardhan Chaudhuri, Ankit Kumar, Orchid Chetia Phukan, Arun Balaji
Buduru
- Abstract要約: クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
- 参考スコア(独自算出の注目度): 3.5066463427087777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowd counting finds direct applications in real-world situations, making
computational efficiency and performance crucial. However, most of the previous
methods rely on a heavy backbone and a complex downstream architecture that
restricts the deployment. To address this challenge and enhance the versatility
of crowd-counting models, we introduce two lightweight models. These models
maintain the same downstream architecture while incorporating two distinct
backbones: MobileNet and MobileViT. We leverage Adjacent Feature Fusion to
extract diverse scale features from a Pre-Trained Model (PTM) and subsequently
combine these features seamlessly. This approach empowers our models to achieve
improved performance while maintaining a compact and efficient design. With the
comparison of our proposed models with previously available state-of-the-art
(SOTA) methods on ShanghaiTech-A ShanghaiTech-B and UCF-CC-50 dataset, it
achieves comparable results while being the most computationally efficient
model. Finally, we present a comparative study, an extensive ablation study,
along with pruning to show the effectiveness of our models.
- Abstract(参考訳): クラウドカウントは現実の状況で直接の応用を見つけ、計算効率と性能を重要視する。
しかし、以前の方法のほとんどは、デプロイを制限する重いバックボーンと複雑な下流アーキテクチャに依存していた。
この課題に対処し,クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは同じダウンストリームアーキテクチャを維持しながら、mobilenetとmobilevitという2つの異なるバックボーンを組み込んでいる。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、それらをシームレスに組み合わせます。
このアプローチは、コンパクトで効率的な設計を維持しながら、モデルのパフォーマンス向上に力を与えます。
提案モデルと上海Tech-A ShanghaiTech-BとUCF-CC-50データセットを用いたSOTA(State-of-the-art)法との比較により,最も計算効率のよいモデルでありながら,同等の結果が得られた。
最後に,本モデルの有効性を示すためのプルーニングとともに,比較研究,広範囲にわたるアブレーション研究を提案する。
関連論文リスト
- DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - Simulated Overparameterization [35.12611686956487]
SOP(Simulated Overparametrization)と呼ばれる新しいパラダイムを導入する。
SOPは、モデルトレーニングと推論に対するユニークなアプローチを提案し、パラメータのより小さく効率的なサブセットが推論中の実際の計算に使用されるように、非常に多くのパラメータを持つモデルを訓練する。
本稿では,トランスフォーマーモデルを含む主要なアーキテクチャとシームレスに統合する,新しいアーキテクチャ非依存のアルゴリズム"Majority kernels"を提案する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。
モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。
原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文 参考訳(メタデータ) (2022-09-09T23:13:25Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。