論文の概要: A Real-Time Deep Network for Crowd Counting
- arxiv url: http://arxiv.org/abs/2002.06515v1
- Date: Sun, 16 Feb 2020 06:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 18:06:42.471981
- Title: A Real-Time Deep Network for Crowd Counting
- Title(参考訳): 群衆カウントのためのリアルタイム深層ネットワーク
- Authors: Xiaowen Shi, Xin Li, Caili Wu, Shuchen Kong, Jing Yang, Liang He
- Abstract要約: 群集カウントのためのコンパクト畳み込みニューラルネットワークを提案する。
入力画像の畳み込み動作をネットワークの前方で同時に行う3つの並列フィルタにより,我々のモデルはほぼリアルタイムに実現できる。
- 参考スコア(独自算出の注目度): 12.615660025855604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic analysis of highly crowded people has attracted extensive attention
from computer vision research. Previous approaches for crowd counting have
already achieved promising performance across various benchmarks. However, to
deal with the real situation, we hope the model run as fast as possible while
keeping accuracy. In this paper, we propose a compact convolutional neural
network for crowd counting which learns a more efficient model with a small
number of parameters. With three parallel filters executing the convolutional
operation on the input image simultaneously at the front of the network, our
model could achieve nearly real-time speed and save more computing resources.
Experiments on two benchmarks show that our proposed method not only takes a
balance between performance and efficiency which is more suitable for actual
scenes but also is superior to existing light-weight models in speed.
- Abstract(参考訳): 混雑する人々の自動分析はコンピュータビジョン研究から広く注目を集めている。
クラウドカウントに対する以前のアプローチは、様々なベンチマークですでに有望なパフォーマンスを達成している。
しかし、実際の状況に対処するためには、モデルを可能な限り高速に動作させながら精度を維持したい。
本稿では,少数のパラメータを持つより効率的なモデルを学習するクラウドカウントのための,コンパクトな畳み込みニューラルネットワークを提案する。
3つの並列フィルタが入力画像の畳み込み動作を同時にネットワークの前面に実行することで,実時間に近い速度を実現し,より多くの計算資源を節約できる。
2つのベンチマーク実験の結果,提案手法は実際のシーンに適した性能と効率のバランスを取るだけでなく,既存の軽量モデルよりも高速であることがわかった。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - The Sparsity Roofline: Understanding the Hardware Limits of Sparse
Neural Networks [4.130528857196844]
本稿では,ニューラルネットワークの空間性を評価する視覚的パフォーマンスモデルであるSparsity Rooflineを紹介する。
機械学習の研究者たちは、実装されていない、あるいは最適化されていないブロック構造化されたスパーシティパターンのパフォーマンスを予測できることを示す。
ハードウェアデザイナが、ハードウェアにおける新しいスパースパターンとスパースデータフォーマットのパフォーマンスに与える影響を、どのように予測できるかを示す。
論文 参考訳(メタデータ) (2023-09-30T21:29:31Z) - Rethinking Pareto Frontier for Performance Evaluation of Deep Neural
Networks [2.167843405313757]
多目的最適化を用いて効率測定を再定義する。
競合変数と自然を同時に1つの相対効率尺度で組み合わせる。
これにより、異なるコンピューティングハードウェア上で効率的に動作するディープモデルをランク付けし、推論効率とトレーニング効率を客観的に組み合わせることができる。
論文 参考訳(メタデータ) (2022-02-18T15:58:17Z) - Real-time Human Detection Model for Edge Devices [0.0]
畳み込みニューラルネットワーク(CNN)は、検出と分類タスクにおいて、従来の特徴抽出と機械学習モデルを置き換える。
最近、リアルタイムタスクのために軽量CNNモデルが導入されている。
本稿では,Raspberry Piのような限られたエッジデバイスに適合するCNNベースの軽量モデルを提案する。
論文 参考訳(メタデータ) (2021-11-20T18:42:17Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。