論文の概要: Spatiotemporal Dilated Convolution with Uncertain Matching for
Video-based Crowd Estimation
- arxiv url: http://arxiv.org/abs/2101.12439v1
- Date: Fri, 29 Jan 2021 07:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 12:48:52.734296
- Title: Spatiotemporal Dilated Convolution with Uncertain Matching for
Video-based Crowd Estimation
- Title(参考訳): ビデオに基づく集団推定のための不確かさマッチング付き時空間拡張畳み込み
- Authors: Yu-Jen Ma, Hong-Han Shuai, and Wen-Huang Cheng
- Abstract要約: コンバルネットワークに基づくクラウドカウント問題に対処するためのテンポラルネットワーク(STDNet)。
3Dおよび3D拡張ビデオコンボリューションの分解を利用して、高密度ビデオコンボリューションを強化する。
パッチワイド・レグレッション・ロス(PRL)は、元のピクセルワイド・ロス結果を改善する。
- 参考スコア(独自算出の注目度): 23.635537663234174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel SpatioTemporal convolutional Dense Network
(STDNet) to address the video-based crowd counting problem, which contains the
decomposition of 3D convolution and the 3D spatiotemporal dilated dense
convolution to alleviate the rapid growth of the model size caused by the
Conv3D layer. Moreover, since the dilated convolution extracts the multiscale
features, we combine the dilated convolution with the channel attention block
to enhance the feature representations. Due to the error that occurs from the
difficulty of labeling crowds, especially for videos, imprecise or
standard-inconsistent labels may lead to poor convergence for the model. To
address this issue, we further propose a new patch-wise regression loss (PRL)
to improve the original pixel-wise loss. Experimental results on three
video-based benchmarks, i.e., the UCSD, Mall and WorldExpo'10 datasets, show
that STDNet outperforms both image- and video-based state-of-the-art methods.
The source codes are released at \url{https://github.com/STDNet/STDNet}.
- Abstract(参考訳): 本論文では,3D畳み込みの分解と3D時空間拡張密度畳み込みを含み,Conv3D層に起因するモデルサイズの急速な成長を緩和する映像に基づく群集カウント問題に対処するための,新しいテンポテンポラル畳み込みネットワーク(STDNet)を提案する。
さらに,拡張畳み込みはマルチスケールな特徴を抽出し,拡張畳み込みとチャネルアテンションブロックを組み合わせることで特徴表現を向上させる。
特にビデオでは、群衆のラベル付けの困難さから生じるエラーのため、不正確で標準に一貫性のないラベルはモデルの収束不良につながる可能性がある。
この問題に対処するため,我々はさらに,オリジナルの画素損失を改善する新しいパッチワイズレグレッション損失(prl)を提案する。
3つのビデオベースのベンチマーク、すなわちUCSD、Malma、WorldExpo'10データセットの実験結果は、STDNetが画像とビデオの両方の最先端の方法よりも優れていることを示している。
ソースコードは \url{https://github.com/stdnet/stdnet} でリリースされる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - D^2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in
Videos [24.3722621395592]
動的拡張畳み込み(D2Conv3D: Dynamic Dilated Convolutions: D2Conv3D): 拡張可能な畳み込みからインスピレーションを得て、3Dドメインに拡張する新しいタイプの畳み込みを提案する。
D2Conv3Dは,複数のビデオセグメンテーション関連ベンチマークを用いて,複数の3次元CNNアーキテクチャの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-15T14:15:28Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Learnable Sampling 3D Convolution for Video Enhancement and Action
Recognition [24.220358793070965]
3次元畳み込み(emphLS3D-Conv)の能力を向上させるための新しいモジュールを導入する。
学習可能な2Dオフセットを3D畳み込みに追加し、フレーム間の空間的特徴マップ上の位置をサンプリングする。
ビデオ, ビデオ超解像, ビデオデノナイズ, アクション認識実験により, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-11-22T09:20:49Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Appearance-Preserving 3D Convolution for Video-based Person
Re-identification [61.677153482995564]
本稿では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネルの2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。
元の3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
論文 参考訳(メタデータ) (2020-07-16T16:21:34Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。