論文の概要: From a Bird's Eye View to See: Joint Camera and Subject Registration without the Camera Calibration
- arxiv url: http://arxiv.org/abs/2212.09298v3
- Date: Sun, 28 Apr 2024 05:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 03:37:12.897797
- Title: From a Bird's Eye View to See: Joint Camera and Subject Registration without the Camera Calibration
- Title(参考訳): 鳥の視線から見る:カメラの校正を伴わない共同カメラと被写体登録
- Authors: Zekun Qian, Ruize Han, Wei Feng, Feifan Wang, Song Wang,
- Abstract要約: 我々は, カメラキャリブレーションを伴わない鳥眼ビュー(BEV)において, マルチビューカメラと対象登録の新たな課題に取り組む。
マルチパーソンシーンに対して、異なるファーストパーソンビュー(FPV)からの複数のRGBイメージが入力されるだけであるため、これは非常に難しい問題である。
本稿では,この問題を解決するためのエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.733451121484993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle a new problem of multi-view camera and subject registration in the bird's eye view (BEV) without pre-given camera calibration. This is a very challenging problem since its only input is several RGB images from different first-person views (FPVs) for a multi-person scene, without the BEV image and the calibration of the FPVs, while the output is a unified plane with the localization and orientation of both the subjects and cameras in a BEV. We propose an end-to-end framework solving this problem, whose main idea can be divided into following parts: i) creating a view-transform subject detection module to transform the FPV to a virtual BEV including localization and orientation of each pedestrian, ii) deriving a geometric transformation based method to estimate camera localization and view direction, i.e., the camera registration in a unified BEV, iii) making use of spatial and appearance information to aggregate the subjects into the unified BEV. We collect a new large-scale synthetic dataset with rich annotations for evaluation. The experimental results show the remarkable effectiveness of our proposed method.
- Abstract(参考訳): 我々は, カメラキャリブレーションを伴わない鳥眼ビュー(BEV)において, マルチビューカメラと対象登録の新たな課題に取り組む。
BEV画像とFPVのキャリブレーションを伴わないマルチパーソンシーンの異なるファーストパーソンビュー(FPV)から複数のRGB画像が入力されるのに対して、出力はBEV内の被写体とカメラの両方のローカライズと向きの統一された平面であるため、これは非常に難しい問題である。
この問題を解消するエンドツーエンドのフレームワークを提案し、その主な考え方は以下の部分に分けられる。
一 ビュー変換対象検出モジュールを作成して、各歩行者のローカライゼーション及び配向を含む仮想BEVに変換すること。
二 カメラのローカライゼーション及び視野方向を推定するための幾何学的変換に基づく方法、すなわち、統合されたBEVにおけるカメラ登録を導出すること。
三 被写体を統合BEVに集約するために空間情報及び外観情報を利用すること。
評価のためのリッチアノテーションを備えた大規模合成データセットを新たに収集する。
実験の結果,提案手法の顕著な有効性を示した。
関連論文リスト
- Video2BEV: Transforming Drone Videos to BEVs for Video-based Geo-localization [19.170572975810497]
我々は、新しいビデオベースドローンジオローカライズタスクを定式化し、Video2BEVパラダイムを提案する。
このパラダイムは、ビデオをバードアイビュー(Bird's Eye View, BEV)に変換することで、その後のマッチングプロセスを簡素化する。
提案手法を検証するために,新しいビデオベースジオローカライゼーションデータセットUniVを導入する。
論文 参考訳(メタデータ) (2024-11-20T01:52:49Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - BEVControl: Accurately Controlling Street-view Elements with
Multi-perspective Consistency via BEV Sketch Layout [17.389444754562252]
本稿では,BEVControlと呼ばれる2段階生成手法を提案する。
我々のBEVControlは最先端の手法であるBEVGenをはるかに上回っている。
論文 参考訳(メタデータ) (2023-08-03T09:56:31Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary
Camera Rigs [3.5728676902207988]
任意のカメラリグからのBEVセマンティックセマンティックセグメンテーションのための効果的なトランスフォーマーベース手法を提案する。
具体的には、まず任意のカメラから画像の特徴を共有バックボーンで符号化する。
BEV-to-imageビュー変換を行うために、効率的なマルチカメラ変形型アテンションユニットを設計する。
論文 参考訳(メタデータ) (2022-03-08T12:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。