論文の概要: CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection
- arxiv url: http://arxiv.org/abs/2603.05042v1
- Date: Thu, 05 Mar 2026 10:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.18977
- Title: CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection
- Title(参考訳): CoIn3D: 構成不変なマルチカメラ3Dオブジェクト検出の再検討
- Authors: Zhaonian Kuang, Rui Ding, Haotian Wang, Xinhu Zheng, Meng Yang, Gang Hua,
- Abstract要約: マルチカメラ3Dオブジェクト検出(MC3D)は、マルチセンサー物理エージェントの展開により注目を集めている。
現在のソリューションは、単純にメタカメラを統一表現に用いているが、包括的な考慮を欠いている。
CoIn3Dは、ソース設定から未表示のターゲット設定への強力な転送可能性を実現する汎用的なMC3Dフレームワークである。
- 参考スコア(独自算出の注目度): 21.94827944503605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-camera 3D object detection (MC3D) has attracted increasing attention with the growing deployment of multi-sensor physical agents, such as robots and autonomous vehicles. However, MC3D models still struggle to generalize to unseen platforms with new multi-camera configurations. Current solutions simply employ a meta-camera for unified representation but lack comprehensive consideration. In this paper, we revisit this issue and identify that the devil lies in spatial prior discrepancies across source and target configurations, including different intrinsics, extrinsics, and array layouts. To address this, we propose CoIn3D, a generalizable MC3D framework that enables strong transferability from source configurations to unseen target ones. CoIn3D explicitly incorporates all identified spatial priors into both feature embedding and image observation through spatial-aware feature modulation (SFM) and camera-aware data augmentation (CDA), respectively. SFM enriches feature space by integrating four spatial representations, such as focal length, ground depth, ground gradient, and Plücker coordinate. CDA improves observation diversity under various configurations via a training-free dynamic novel-view image synthesis scheme. Extensive experiments demonstrate that CoIn3D achieves strong cross-configuration performance on landmark datasets such as NuScenes, Waymo, and Lyft, under three dominant MC3D paradigms represented by BEVDepth, BEVFormer, and PETR.
- Abstract(参考訳): マルチカメラ3Dオブジェクト検出(MC3D)は、ロボットや自律走行車などの多センサー物理エージェントの展開により、注目を集めている。
しかし、MC3Dモデルは、新しいマルチカメラ構成で見えないプラットフォームへの一般化に苦慮している。
現在のソリューションは、単純にメタカメラを統一表現に用いているが、包括的な考慮を欠いている。
本稿では,この問題を再検討し,異なる内在性,外在性,配列レイアウトを含む,ソースおよびターゲット構成間の空間的事前不一致にあることを確認した。
そこで本研究では,ソース構成から対象物への強力な転送性を実現する汎用的なMC3DフレームワークであるCoIn3Dを提案する。
CoIn3Dは、空間認識機能変調(SFM)とカメラ認識データ拡張(CDA)による特徴埋め込みと画像観察の両方に、識別された空間先行を明示的に組み込んでいる。
SFMは、焦点距離、接地深さ、グラウンド勾配、プリュッカー座標などの4つの空間表現を統合することで特徴空間を強化する。
CDAは、トレーニング不要なダイナミックノベルビュー画像合成方式により、様々な構成下での観察の多様性を向上させる。
大規模な実験により、CoIn3Dは、BEVDepth、BEVFormer、PETRで代表される3つの支配的なMC3Dパラダイムの下で、NuScenes、Waymo、Lyftといったランドマークデータセット上で、強力なクロスコンフィグレーションパフォーマンスを実現することが示された。
関連論文リスト
- SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs [21.891285551179365]
Spherical Coordinate-based Positional Embedding (SoPE)を紹介する。
本手法は,3次元球面座標空間に点-クラウドトークンのインデックスをマッピングし,空間位置と方向角の統一モデリングを可能にする。
この定式化は、点クラウドデータの固有の幾何学的構造を保持し、空間的認識を高め、マルチモーダル学習のためのより一貫性があり表現力のある幾何学的表現をもたらす。
論文 参考訳(メタデータ) (2026-02-26T07:42:15Z) - TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment [58.46706158310462]
TIGaussian は 3D Gaussian Splatting (3DGS) 特性を利用して、相互モダリティアライメントを強化する。
我々のマルチブランチ3DGSトークン化器は、3DGS構造の固有の性質をコンパクトな潜在表現に分解する。
テキスト3D投影モジュールは、テキスト3Dアライメントを改善するために、3D機能をテキスト埋め込みスペースに適応的にマッピングする。
論文 参考訳(メタデータ) (2026-01-27T06:30:32Z) - WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-12T17:59:09Z) - CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。