論文の概要: Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark
- arxiv url: http://arxiv.org/abs/2411.13056v1
- Date: Wed, 20 Nov 2024 06:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:14.714782
- Title: Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark
- Title(参考訳): ビデオオブジェクトカウントのための効率的なマスク付きオートエンコーダと大規模ベンチマーク
- Authors: Bing Cao, Quanhao Lu, Jiekang Feng, Pengfei Zhu, Qinghua Hu, Qilong Wang,
- Abstract要約: 前景の動的不均衡は、ビデオオブジェクトのカウントにおいて大きな課題である。
本稿では,密度埋め込み型効率的なマスドオートエンコーダカウント(E-MAC)フレームワークを提案する。
また,高効率化のための密度マップから導出した空間適応マスクを提案する。
- 参考スコア(独自算出の注目度): 52.339936954958034
- License:
- Abstract: The dynamic imbalance of the fore-background is a major challenge in video object counting, which is usually caused by the sparsity of foreground objects. This often leads to severe under- and over-prediction problems and has been less studied in existing works. To tackle this issue in video object counting, we propose a density-embedded Efficient Masked Autoencoder Counting (E-MAC) framework in this paper. To effectively capture the dynamic variations across frames, we utilize an optical flow-based temporal collaborative fusion that aligns features to derive multi-frame density residuals. The counting accuracy of the current frame is boosted by harnessing the information from adjacent frames. More importantly, to empower the representation ability of dynamic foreground objects for intra-frame, we first take the density map as an auxiliary modality to perform $\mathtt{D}$ensity-$\mathtt{E}$mbedded $\mathtt{M}$asked m$\mathtt{O}$deling ($\mathtt{DEMO}$) for multimodal self-representation learning to regress density map. However, as $\mathtt{DEMO}$ contributes effective cross-modal regression guidance, it also brings in redundant background information and hard to focus on foreground regions. To handle this dilemma, we further propose an efficient spatial adaptive masking derived from density maps to boost efficiency. In addition, considering most existing datasets are limited to human-centric scenarios, we first propose a large video bird counting dataset $\textit{DroneBird}$, in natural scenarios for migratory bird protection. Extensive experiments on three crowd datasets and our $\textit{DroneBird}$ validate our superiority against the counterparts.
- Abstract(参考訳): 前景の動的不均衡は、ビデオオブジェクトのカウントにおいて大きな課題であり、これは通常、前景オブジェクトの空間性によって引き起こされる。
これはしばしば重度の下降や過剰な予測の問題を引き起こし、既存の研究では研究されていない。
本稿では,ビデオオブジェクトカウントにおけるこの問題に対処するために,密度埋め込み型効率的なマスケドオートエンコーダカウント(E-MAC)フレームワークを提案する。
フレーム間の動的変動を効果的に把握するために,多フレーム密度残差を導出するために特徴を整列する光フローベース時間的協調融合を用いる。
隣接するフレームからの情報を活用することにより、現在のフレームのカウント精度を高める。
さらに重要なことは、フレーム内の動的フォアグラウンドオブジェクトの表現能力を向上するために、まず密度写像を補助モダリティとして、密度写像を退避学習のための多重モーダル自己表現学習のために、$\mathtt{D}$ensity-$\matht{E}$mbedded $\mathtt{M}$asked m$\mathtt{O}$deling$\mathtt{DEMO}$)を実行する。
しかし、$\mathtt{DEMO}$は効果的なクロスモーダル回帰ガイダンスに寄与するので、冗長なバックグラウンド情報をもたらし、前景領域に集中するのは難しい。
さらに, このジレンマに対処するために, 密度マップから導出した効率的な空間適応マスクを提案し, 効率を向上する。
さらに、既存のほとんどのデータセットが人間中心のシナリオに限定されていることを考慮し、移動鳥保護のための自然なシナリオにおいて、まず大きなビデオバードカウントデータセット$\textit{DroneBird}$を提案する。
3つのクラウドデータセットと$\textit{DroneBird}$の大規模な実験は、これらのデータセットに対する当社の優位性を検証します。
関連論文リスト
- Linear Transformer Topological Masking with Graph Random Features [52.717865653036796]
重み付き隣接行列の学習可能な関数としてトポロジカルマスクをパラメータ化する方法を示す。
私たちの効率的なマスキングアルゴリズムは、画像およびポイントクラウドデータのタスクに対して、強力なパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2024-10-04T14:24:06Z) - Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Single Object Tracking through a Fast and Effective Single-Multiple
Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。
本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。
提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文 参考訳(メタデータ) (2021-03-28T11:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。