Fugu-MT 論文翻訳(概要): Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark

論文の概要: Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark

arxiv url: http://arxiv.org/abs/2411.13056v2
Date: Thu, 06 Mar 2025 08:28:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 15:06:36.190626
Title: Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark
Title（参考訳）: ビデオオブジェクトカウントのための効率的なマスク付きオートエンコーダと大規模ベンチマーク
Authors: Bing Cao, Quanhao Lu, Jiekang Feng, Qilong Wang, Qinghua Hu, Pengfei Zhu,
Abstract要約: 前景の動的不均衡は、ビデオオブジェクトのカウントにおいて大きな課題である。本稿では,密度埋め込み型効率的なマスドオートエンコーダカウント(E-MAC)フレームワークを提案する。さらに,渡り鳥保護のための自然シナリオにおいて,まず,大規模なビデオバードカウントデータセットであるDroneBirdを提案する。
参考スコア（独自算出の注目度）: 52.339936954958034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The dynamic imbalance of the fore-background is a major challenge in video object counting, which is usually caused by the sparsity of target objects. This remains understudied in existing works and often leads to severe under-/over-prediction errors. To tackle this issue in video object counting, we propose a density-embedded Efficient Masked Autoencoder Counting (E-MAC) framework in this paper. To empower the model's representation ability on density regression, we develop a new $\mathtt{D}$ensity-$\mathtt{E}$mbedded $\mathtt{M}$asked m$\mathtt{O}$deling ($\mathtt{DEMO}$) method, which first takes the density map as an auxiliary modality to perform multimodal self-representation learning for image and density map. Although $\mathtt{DEMO}$ contributes to effective cross-modal regression guidance, it also brings in redundant background information, making it difficult to focus on the foreground regions. To handle this dilemma, we propose an efficient spatial adaptive masking derived from density maps to boost efficiency. Meanwhile, we employ an optical flow-based temporal collaborative fusion strategy to effectively capture the dynamic variations across frames, aligning features to derive multi-frame density residuals. The counting accuracy of the current frame is boosted by harnessing the information from adjacent frames. In addition, considering that most existing datasets are limited to human-centric scenarios, we first propose a large video bird counting dataset, DroneBird, in natural scenarios for migratory bird protection. Extensive experiments on three crowd datasets and our \textit{DroneBird} validate our superiority against the counterparts. The code and dataset are available.
Abstract（参考訳）: フォアバックグラウンドの動的不均衡はビデオオブジェクトのカウントにおいて大きな課題である。これは既存の研究で未検討であり、しばしば過小評価エラーにつながる。本稿では,ビデオオブジェクトカウントにおけるこの問題に対処するために,密度埋め込み型効率的なマスケドオートエンコーダカウント(E-MAC)フレームワークを提案する。密度回帰に対するモデルの表現能力を向上するために、新しい$\mathtt{D}$ensity-$\mathtt{E}$mbedded$\matht{M}$asked m$\mathtt{O}$deling$\mathtt{DEMO}$) 法を開発し、まず、密度写像を補助モダリティとして、画像と密度マップのマルチモーダル自己表現学習を行う。 $\mathtt{DEMO}$は効果的なクロスモーダル回帰ガイダンスに寄与するが、冗長なバックグラウンド情報ももたらすため、フォアグラウンド領域に集中することは困難である。このジレンマに対処するために、密度マップから導出した効率的な空間適応マスクを提案し、効率を向上する。また, フレーム間の動的変動を効果的に捉え, 多フレーム密度残差を導出する特徴を整列させるために, 光学フローに基づく時間的協調融合方式を用いる。隣接するフレームからの情報を活用することにより、現在のフレームのカウント精度を高める。また,既存のほとんどのデータセットは人間中心のシナリオに限定されているため,移動鳥保護のための自然なシナリオにおいて,まず大規模なビデオバードカウントデータセットであるDroneBirdを提案する。 3つの群集データセットに対する大規模な実験と、我々の \textit{DroneBird} は、我々の群集に対する優越性を検証した。コードとデータセットは利用可能だ。

関連論文リスト

PMPNet: Pixel Movement Prediction Network for Monocular Depth Estimation in Dynamic Scenes [7.736445799116692]
動的シーンにおける単眼深度推定のための新しい手法を提案する。まず,動的シーンにおける物体の運動軌跡の任意性について理論的に検討する。エッジ周辺の深度不整合を克服するために,変形可能なサポートウィンドウモジュールを提案する。
論文参考訳（メタデータ） (2024-11-04T03:42:29Z)
Linear Transformer Topological Masking with Graph Random Features [52.717865653036796]
重み付き隣接行列の学習可能な関数としてトポロジカルマスクをパラメータ化する方法を示す。私たちの効率的なマスキングアルゴリズムは、画像およびポイントクラウドデータのタスクに対して、強力なパフォーマンス向上を提供します。
論文参考訳（メタデータ） (2024-10-04T14:24:06Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文参考訳（メタデータ） (2024-01-25T07:28:22Z)
Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文参考訳（メタデータ） (2023-06-07T17:57:45Z)
Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文参考訳（メタデータ） (2023-01-14T09:43:23Z)
GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文参考訳（メタデータ） (2022-12-06T14:32:55Z)
IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文参考訳（メタデータ） (2022-09-21T14:36:18Z)
CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文参考訳（メタデータ） (2022-07-31T21:39:15Z)
Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文参考訳（メタデータ） (2021-09-22T06:45:37Z)
Depth-conditioned Dynamic Message Propagation for Monocular 3D Object Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。 KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文参考訳（メタデータ） (2021-03-30T16:20:24Z)
Single Object Tracking through a Fast and Effective Single-Multiple Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文参考訳（メタデータ） (2021-03-28T11:02:14Z)
Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文参考訳（メタデータ） (2020-08-25T06:00:06Z)
Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文参考訳（メタデータ） (2020-03-10T03:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。