論文の概要: RCDN: Towards Robust Camera-Insensitivity Collaborative Perception via Dynamic Feature-based 3D Neural Modeling
- arxiv url: http://arxiv.org/abs/2405.16868v1
- Date: Mon, 27 May 2024 06:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:50:47.272192
- Title: RCDN: Towards Robust Camera-Insensitivity Collaborative Perception via Dynamic Feature-based 3D Neural Modeling
- Title(参考訳): RCDN:動的特徴に基づく3次元ニューラルモデリングによるロバストカメラ非感受性協調知覚に向けて
- Authors: Tianhang Wang, Fan Lu, Zehan Zheng, Guang Chen, Changjun Jiang,
- Abstract要約: 我々は、新しい堅牢なカメラ非感受性問題、すなわち、失敗したカメラの視点によって引き起こされる問題を克服する方法を導入する。
本稿では,ロバストカメラ非感度協調認識システムであるRCDNと,新しい動的特徴に基づく3Dニューラルモデリング機構を提案する。
コードとデータセットは近く公開されます。
- 参考スコア(独自算出の注目度): 11.395101473757443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collaborative perception is dedicated to tackling the constraints of single-agent perception, such as occlusions, based on the multiple agents' multi-view sensor inputs. However, most existing works assume an ideal condition that all agents' multi-view cameras are continuously available. In reality, cameras may be highly noisy, obscured or even failed during the collaboration. In this work, we introduce a new robust camera-insensitivity problem: how to overcome the issues caused by the failed camera perspectives, while stabilizing high collaborative performance with low calibration cost? To address above problems, we propose RCDN, a Robust Camera-insensitivity collaborative perception with a novel Dynamic feature-based 3D Neural modeling mechanism. The key intuition of RCDN is to construct collaborative neural rendering field representations to recover failed perceptual messages sent by multiple agents. To better model collaborative neural rendering field, RCDN first establishes a geometry BEV feature based time-invariant static field with other agents via fast hash grid modeling. Based on the static background field, the proposed time-varying dynamic field can model corresponding motion vectors for foregrounds with appropriate positions. To validate RCDN, we create OPV2V-N, a new large-scale dataset with manual labelling under different camera failed scenarios. Extensive experiments conducted on OPV2V-N show that RCDN can be ported to other baselines and improve their robustness in extreme camera-insensitivity settings. Our code and datasets will be available soon.
- Abstract(参考訳): 協調的知覚は、複数のエージェントのマルチビューセンサー入力に基づいて、オクルージョンのような単一エージェント知覚の制約に対処することを目的としている。
しかし、既存の作業の多くは、すべてのエージェントのマルチビューカメラが継続的に利用可能である、という理想的な条件を前提としている。
実際には、カメラは、コラボレーション中に非常に騒々しく、曖昧にされ、あるいは失敗するかもしれない。
本研究では,カメラ視点の故障による問題を克服すると同時に,キャリブレーションコストの低い協調性能を安定させるという,新しい堅牢なカメラ非感受性問題を導入する。
上記の問題に対処するために,ロバストカメラ非感度協調認識システムであるRCDNと,新しい動的特徴に基づく3次元ニューラルモデリング機構を提案する。
RCDNの重要な直感は、複数のエージェントが送信した知覚的メッセージの回復のために、協調的なニューラルネットワークレンダリングフィールド表現を構築することである。
協調的なニューラルネットワークレンダリングをモデル化するために、RCDNはまず、高速なハッシュグリッドモデリングを通じて、他のエージェントと幾何学的BEV特徴に基づく時間不変の静的フィールドを確立する。
静的背景場に基づいて、提案した時間変化動的場は、適切な位置を持つ前景に対する対応する運動ベクトルをモデル化することができる。
RCDNを検証するために、異なるカメラフェールシナリオ下で手動ラベリングを備えた新しい大規模データセットであるOPV2V-Nを開発した。
OPV2V-Nで行った大規模な実験により、RCDNは他のベースラインに移植でき、極端にカメラに敏感な設定でその堅牢性を向上させることができた。
コードとデータセットは近く公開されます。
関連論文リスト
- Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration [34.18403601269181]
DM-Calibは単一の入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチである。
我々は、カメラ画像と呼ばれる新しい画像ベース表現を導入し、数値カメラの内在を無意味に符号化する。
一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-11-26T09:04:37Z) - DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Collaboration Helps Camera Overtake LiDAR in 3D Detection [49.58433319402405]
カメラのみの3D検出は、LiDARベースの検出システムと比較して、オブジェクトを3D空間にローカライズするための簡単なソリューションを提供する。
提案するコラボレーティブカメラのみの3D検出(CoCa3D)により,エージェントは通信を通じて相互に補完情報を共有できる。
その結果、CoCa3Dは従来のSOTA性能をDAIR-V2Xで44.21%改善し、OPV2V+で30.60%、AP@70でCoPerception-UAVs+で12.59%向上した。
論文 参考訳(メタデータ) (2023-03-23T03:50:41Z) - Robustifying the Multi-Scale Representation of Neural Radiance Fields [86.69338893753886]
実世界の画像の両問題を克服するために,頑健なマルチスケールニューラルラジアンス場表現手法を提案する。
提案手法は,NeRFにインスパイアされたアプローチを用いて,マルチスケール画像効果とカメラ位置推定問題に対処する。
例えば、日常的に取得したマルチビュー画像からオブジェクトの正確な神経表現を行うためには、カメラの正確な位置推定が不可欠であることを示す。
論文 参考訳(メタデータ) (2022-10-09T11:46:45Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Camera-Conditioned Stable Feature Generation for Isolated Camera
Supervised Person Re-IDentification [24.63519986072777]
クロスカメラ画像は、ISolated Camera Supervised 設定下では利用できない可能性がある。
新しいパイプラインは、モデルトレーニングのためにフィーチャースペース内のクロスカメラサンプルを合成することによって導入される。
2つのISCS人物Re-IDデータセットの実験は、競合相手に対するCCSFGの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-29T03:10:24Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - View Invariant Human Body Detection and Pose Estimation from Multiple
Depth Sensors [0.7080990243618376]
本稿では,複数地点のクラウドソースを用いて,エンドツーエンドの多対人3Dポーズ推定ネットワークであるPoint R-CNNを提案する。
我々は、個別のカメラ故障、様々なターゲットの外観、複雑な散らかったシーンなど、現実の課題をシミュレートする広範囲な実験を行った。
一方、私たちのエンドツーエンドネットワークは、カスケードされた最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-05-08T19:06:28Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z) - A Bayesian Filter for Multi-view 3D Multi-object Tracking with Occlusion
Handling [2.824395407508717]
提案アルゴリズムは、カメラ全体の検出総数において線形複雑である。
3次元世界フレームで動作し、オブジェクトの3次元軌道推定を提供する。
提案アルゴリズムは最新のWILDTRACKSデータセットで評価され,非常に混み合った場面で機能することが実証された。
論文 参考訳(メタデータ) (2020-01-13T09:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。