論文の概要: Voxelized 3D Feature Aggregation for Multiview Detection
- arxiv url: http://arxiv.org/abs/2112.03471v1
- Date: Tue, 7 Dec 2021 03:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 02:26:37.710350
- Title: Voxelized 3D Feature Aggregation for Multiview Detection
- Title(参考訳): マルチビュー検出のためのVoxelized 3D Feature Aggregation
- Authors: Jiahao Ma, Jinguang Tong, Shan Wang, Wei Zhao, Liang Zheng, Chuong
Nguyen
- Abstract要約: VFA, Voxelized 3D feature aggregate, for feature transformation and aggregate in multi-view detection。
具体的には、3D空間をボクセル化し、それぞれのカメラビューにボクセルを投影し、2D機能とこれらプロジェクションされたボクセルを関連付ける。
これにより、同じ垂直線に沿って2次元特徴を識別して集約し、プロジェクション歪みを広範囲に緩和することができる。
- 参考スコア(独自算出の注目度): 15.465855460519446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view detection incorporates multiple camera views to alleviate
occlusion in crowded scenes, where the state-of-the-art approaches adopt
homography transformations to project multi-view features to the ground plane.
However, we find that these 2D transformations do not take into account the
object's height, and with this neglection features along the vertical direction
of same object are likely not projected onto the same ground plane point,
leading to impure ground-plane features. To solve this problem, we propose VFA,
voxelized 3D feature aggregation, for feature transformation and aggregation in
multi-view detection. Specifically, we voxelize the 3D space, project the
voxels onto each camera view, and associate 2D features with these projected
voxels. This allows us to identify and then aggregate 2D features along the
same vertical line, alleviating projection distortions to a large extent.
Additionally, because different kinds of objects (human vs. cattle) have
different shapes on the ground plane, we introduce the oriented Gaussian
encoding to match such shapes, leading to increased accuracy and efficiency. We
perform experiments on multiview 2D detection and multiview 3D detection
problems. Results on four datasets (including a newly introduced MultiviewC
dataset) show that our system is very competitive compared with the
state-of-the-art approaches. %Our code and data will be open-sourced.Code and
MultiviewC are released at https://github.com/Robert-Mar/VFA.
- Abstract(参考訳): マルチビュー検出は、複数のカメラビューが混在するシーンにおける閉塞を軽減するために組み込まれており、最先端のアプローチでは、ホモグラフィ変換を採用して、マルチビュー機能を地上面に投影する。
しかし、これらの2次元変換は物体の高さを考慮せず、同じ物体の垂直方向に沿って無視される特徴が同一の平面上に投影されないため、不純な地上面の特徴が生じることが判明した。
この問題を解決するために,多視点検出における特徴変換とアグリゲーションのためのvfa,voxelized 3d feature aggregateを提案する。
具体的には、3d空間をボクセル化し、それぞれのカメラビューにボクセルを投影し、2d機能をこれらの投影ボクセルと関連付ける。
これにより、同じ垂直線に沿って2次元特徴を識別して集約し、プロジェクション歪みを広範囲に緩和することができる。
また、異なる種類の物体(人間と牛)は地上面に異なる形状を持つため、そのような形状に適合する向き付けガウス符号化を導入することにより、精度と効率性が向上する。
マルチビュー2次元検出とマルチビュー3次元検出に関する実験を行った。
4つのデータセット(新たに導入されたMultiviewCデータセットを含む)の結果、我々のシステムは最先端のアプローチと比較して非常に競争力があることがわかった。
コードとMultiviewCはhttps://github.com/Robert-Mar/VFA.comでリリースされる。
関連論文リスト
- Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - VoxDet: Voxel Learning for Novel Instance Detection [15.870525460969553]
VoxDetは、見えないインスタンスを検出するための3Dジオメトリ対応フレームワークである。
本フレームワークは,強力な3次元ボクセル表現と信頼性ボクセルマッチング機構をフル活用する。
我々の知る限りでは、VoxDetは暗黙の3D知識を2D斬新なインスタンス検出タスクに取り入れた最初の企業です。
論文 参考訳(メタデータ) (2023-05-26T19:25:13Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。