論文の概要: CountFormer: Multi-View Crowd Counting Transformer
- arxiv url: http://arxiv.org/abs/2407.02047v1
- Date: Tue, 2 Jul 2024 08:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:14:40.381201
- Title: CountFormer: Multi-View Crowd Counting Transformer
- Title(参考訳): CountFormer: マルチビューの群衆カウント変換器
- Authors: Hong Mo, Xiong Zhang, Jianchao Tan, Cheng Yang, Qiong Gu, Bo Hang, Wenqi Ren,
- Abstract要約: 我々は,マルチビュー画像レベルの特徴をシーンレベルのボリューム表現に高めるために,textbfCountFormerと呼ばれる3D MVCフレームワークを提案する。
カメラエンコーディング戦略を導入することで、CountFormerは、ボリュームクエリと画像レベルの機能にカメラパラメータを埋め込むことに成功した。
提案手法は,様々な広く使用されているデータセットに対して,最先端のアプローチに対して好意的に機能する。
- 参考スコア(独自算出の注目度): 43.92763885594129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view counting (MVC) methods have shown their superiority over single-view counterparts, particularly in situations characterized by heavy occlusion and severe perspective distortions. However, hand-crafted heuristic features and identical camera layout requirements in conventional MVC methods limit their applicability and scalability in real-world scenarios.In this work, we propose a concise 3D MVC framework called \textbf{CountFormer}to elevate multi-view image-level features to a scene-level volume representation and estimate the 3D density map based on the volume features. By incorporating a camera encoding strategy, CountFormer successfully embeds camera parameters into the volume query and image-level features, enabling it to handle various camera layouts with significant differences.Furthermore, we introduce a feature lifting module capitalized on the attention mechanism to transform image-level features into a 3D volume representation for each camera view. Subsequently, the multi-view volume aggregation module attentively aggregates various multi-view volumes to create a comprehensive scene-level volume representation, allowing CountFormer to handle images captured by arbitrary dynamic camera layouts. The proposed method performs favorably against the state-of-the-art approaches across various widely used datasets, demonstrating its greater suitability for real-world deployment compared to conventional MVC frameworks.
- Abstract(参考訳): 多視点計数法(MVC)は、特に重閉塞と重度の視点歪みを特徴とする状況において、一視点計数法よりも優れていることを示す。
しかし,従来のMVC手法では,手作りのヒューリスティックな特徴と同一のカメラレイアウト要件により,実世界のシナリオにおける適用性とスケーラビリティが制限される。本研究では,シーンレベルのボリューム表現に多視点画像レベルの特徴を高め,ボリューム特徴に基づいて3次元密度マップを推定する,「textbf{CountFormer}」と呼ばれる簡潔な3D MVCフレームワークを提案する。
カメラエンコーディング戦略を取り入れたCountFormerは,カメラパラメータをボリュームクエリや画像レベルの特徴に組み込むことで,様々なカメラレイアウトを大きな違いなく扱えるようにした。
その後、マルチビューボリューム集約モジュールは、様々なマルチビューボリュームを注意深く集約して総合的なシーンレベルのボリューム表現を作成し、任意のダイナミックカメラレイアウトによってキャプチャされた画像を処理する。
提案手法は,従来のMVCフレームワークと比較して,現実のデプロイメントに適していることを示す。
関連論文リスト
- Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation [22.5996658181606]
2つの拡張モジュールと、上記の3つの問題に対処するための未投射操作を備えたFancy123を提案する。
外観強調モジュールは、2Dマルチビューイメージをリアルピクセルに変形させて、より優れたマルチビュー一貫性を実現する。
忠実度向上モジュールは、入力画像に一致するように3Dメッシュを変形させる。
入力画像と変形したマルチビュー画像をLRMの生成されたメッシュに投影することで、高い明快さが保証される。
論文 参考訳(メタデータ) (2024-11-25T08:31:55Z) - MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting [32.66151412557986]
本研究では,頑健な単分子知覚を維持しつつ,サラウンドリファインメントの強化を目的とした弱強誘引フレームワークを提案する。
我々のフレームワークは、異なるサブセットで訓練された弱い調整された専門家を採用しており、それぞれが固有のカメラ構成やシナリオに偏っている。
MC3D-Detジョイントトレーニングでは、不整合カメラ数とカメラパラメータの問題を解決するために、詳細なデータセットマージ戦略が設計されている。
論文 参考訳(メタデータ) (2024-04-10T03:11:10Z) - MuVieCAST: Multi-View Consistent Artistic Style Transfer [6.767885381740952]
モジュール型マルチビュー一貫したスタイル転送ネットワークアーキテクチャである MuVieCAST を紹介する。
MuVieCASTはスパースビューと高密度ビューの両方をサポートし、幅広いマルチビューイメージデータセットを扱うのに十分な汎用性を持つ。
論文 参考訳(メタデータ) (2023-12-08T14:01:03Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - MAIR: Multi-view Attention Inverse Rendering with 3D Spatially-Varying
Lighting Estimation [13.325800282424598]
マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。
実験の結果,提案手法はシングルビュー方式よりも優れた性能を示すが,実世界のシーンでは頑健な性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-03-22T08:07:28Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。