論文の概要: SPARK: Scalable Real-Time Point Cloud Aggregation with Multi-View Self-Calibration
- arxiv url: http://arxiv.org/abs/2601.08414v1
- Date: Tue, 13 Jan 2026 10:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.152796
- Title: SPARK: Scalable Real-Time Point Cloud Aggregation with Multi-View Self-Calibration
- Title(参考訳): SPARK: マルチビュー自己校正によるスケーラブルなリアルタイムクラウドアグリゲーション
- Authors: Chentian Sun,
- Abstract要約: SPARKは、リアルタイムマルチカメラポイントクラウド再構築フレームワークである。
カメラの数と線形にスケーリングしながら、ダイナミックなシーンで安定した点雲を生成する。
- 参考スコア(独自算出の注目度): 1.3537117504260623
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-time multi-camera 3D reconstruction is crucial for 3D perception, immersive interaction, and robotics. Existing methods struggle with multi-view fusion, camera extrinsic uncertainty, and scalability for large camera setups. We propose SPARK, a self-calibrating real-time multi-camera point cloud reconstruction framework that jointly handles point cloud fusion and extrinsic uncertainty. SPARK consists of: (1) a geometry-aware online extrinsic estimation module leveraging multi-view priors and enforcing cross-view and temporal consistency for stable self-calibration, and (2) a confidence-driven point cloud fusion strategy modeling depth reliability and visibility at pixel and point levels to suppress noise and view-dependent inconsistencies. By performing frame-wise fusion without accumulation, SPARK produces stable point clouds in dynamic scenes while scaling linearly with the number of cameras. Extensive experiments on real-world multi-camera systems show that SPARK outperforms existing approaches in extrinsic accuracy, geometric consistency, temporal stability, and real-time performance, demonstrating its effectiveness and scalability for large-scale multi-camera 3D reconstruction.
- Abstract(参考訳): リアルタイムのマルチカメラ3D再構成は、3D知覚、没入型インタラクション、ロボット工学に不可欠である。
既存の方法は、マルチビュー融合、カメラ外在不確実性、大型カメラのスケーラビリティに苦慮している。
本研究では,自己校正型リアルタイムマルチカメラ・ポイント・クラウド・リコンストラクション・フレームワークであるSPARKを提案する。
SPARK は,(1) マルチビューの事前利用と,安定的な自己校正のためのクロスビューと時間的一貫性の強化を図ったオンライン外部推定モジュール,(2) 信頼駆動型の点雲融合戦略により,深度と点レベルでの深度信頼性と可視性をモデル化し,ノイズやビュー依存の不整合を抑える。
蓄積せずにフレームワイズ融合を行うことにより、SPARKはカメラ数と線形にスケーリングしながら、動的シーンで安定した点雲を生成する。
実世界のマルチカメラシステムに対する大規模な実験により、SPARKは外部精度、幾何的整合性、時間的安定性、リアルタイム性能において既存のアプローチよりも優れており、大規模マルチカメラ3D再構成の有効性とスケーラビリティを実証している。
関連論文リスト
- DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation [72.89376712495464]
DAGEは、グローバルコヒーレンスを細部から切り離すデュアルストリームトランスフォーマーである。
低解像度ストリームは、フレーム/言語的注意を交互に交互に付加したアグレッシブなダウンサンプリングフレームで動作し、ビュー一貫性表現を構築する。
高解像度のストリームは、フレーム毎に元のイメージを処理し、シャープな境界と小さな構造を保存する。
この設計は、解像度とクリップ長を独立にスケールし、2Kまでの入力をサポートし、実用的な推論コストを維持する。
論文 参考訳(メタデータ) (2026-03-04T05:29:29Z) - MambaFusion: Adaptive State-Space Fusion for Multimodal 3D Object Detection [6.350460753267439]
MambaFusionは、効率的で適応的で物理的に基礎付けられた3D知覚を実現する、統合されたマルチモーダル検出フレームワークである。
構造条件拡散ヘッドは、不確実性を考慮した推論と不確実性を考慮した推論を統合し、物理的妥当性を強制し、信頼性を校正する。
このフレームワークは、SSMベースの効率と信頼性駆動核融合を結合することで、現実の自律運転システムに対して堅牢で、時間的に安定し、解釈可能な3D知覚が得られることを示す。
論文 参考訳(メタデータ) (2026-02-08T21:10:46Z) - Depth-Guided Metric-Aware Temporal Consistency for Monocular Video Human Mesh Recovery [28.9705779052755]
本稿では,3つの相乗的コンポーネントを通して,計量的時間的整合性を実現する包括的フレームワークを提案する。
Depth-Guided Multi-Scale Fusionモジュールは、幾何的先行とRGB機能とを、信頼を意識したゲーティングを通じて適応的に統合する。
MoDAR(Motion-Depth Aligned Refinement)モジュールは、運動力学と幾何学的手がかりの間の横断的な注意を通して時間的コヒーレンスを強制する。
論文 参考訳(メタデータ) (2026-02-04T06:41:03Z) - FUSE-Flow: Scalable Real-Time Multi-View Point Cloud Reconstruction Using Confidence [1.3537117504260623]
リアルタイム多視点クラウド再構成は、3次元視覚と没入感のコア問題である。
本稿では,FUSE-Flowを提案する。FUSE-Flowはフレームワイドでステートレスで,線形でスケーラブルなクラウドストリーミング再構築フレームワークである。
実験により, オーバーラップ, 深さ不連続, 動的シーンにおける復元安定性と幾何学的忠実度の向上が示された。
論文 参考訳(メタデータ) (2026-02-01T05:45:27Z) - Temporal-Anchor3DLane: Enhanced 3D Lane Detection with Multi-Task Losses and LSTM Fusion [0.0]
Temporal-Anchor3DLaneは、Anchor3DLaneを3つの重要なコントリビューションで拡張した3Dレーン検出フレームワークである。
軽量のテンポラルLSTMフュージョンモジュールは、フレーム全体にわたってアンカー毎の特徴を集約し、より重いトランスフォーマースタイルのテンポラルフュージョンを置き換える。
OpenLaneでは、Temporal-Anchor3DLaneはF1を+6.2改善し、より滑らかな時間軌道を得る。
論文 参考訳(メタデータ) (2025-12-05T21:52:18Z) - DVLO4D: Deep Visual-Lidar Odometry with Sparse Spatial-temporal Fusion [28.146811420532455]
DVLO4Dは,空間-時空間融合を利用して精度とロバスト性を向上する新しい視覚-LiDARオドメトリーフレームワークである。
提案手法は,82msの予測時間を持つ高効率で,実時間展開の可能性を秘めている。
論文 参考訳(メタデータ) (2025-09-07T11:43:11Z) - A Continuous-Time Consistency Model for 3D Point Cloud Generation [0.6308539010172308]
点空間で直接3Dを合成する連続時間一貫性モデルであるConTiCoM-3Dを導入する。
この方法は、TrigFlowにインスパイアされた連続ノイズスケジュールと、Chamfer Distanceに基づく幾何損失を統合する。
ShapeNetベンチマークの実験では、ConTiCoM-3Dは、最先端の拡散モデルと潜時一貫性モデルとを品質と効率の両方で一致または比較している。
論文 参考訳(メタデータ) (2025-09-01T14:11:59Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration [42.67358714902724]
DM-Calibは単一の入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチである。
我々は、カメラ画像と呼ばれる新しい画像ベース表現を導入し、数値カメラの内在を無意味に符号化する。
一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-11-26T09:04:37Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter
Correction [54.00007868515432]
既存の手法では、一様速度仮定による補正の精度を推定する上で、課題に直面している。
本稿では,個々の画素の高次補正場を正確に推定する,幾何的回転シャッター(QRS)運動解法を提案する。
提案手法は,Carla-RS,Fastec-RS,BS-RSCの各データセット上で,PSNRの+4.98,+0.77,+4.33を超える。
論文 参考訳(メタデータ) (2023-03-31T15:09:18Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Estimating Egocentric 3D Human Pose in Global Space [70.7272154474722]
本稿では,魚眼カメラを用いた自己中心型3次元体姿勢推定法を提案する。
提案手法は, 定量的, 定性的に, 最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-04-27T20:01:57Z) - CoMo: A novel co-moving 3D camera system [0.0]
CoMoは2台の同期高速カメラと回転ステージを組み合わせた共同移動カメラシステムである。
本稿では,システム"ホーム"構成において,カメラの位置とヨー,ピッチ,ロールの3つの角度を測定する外部パラメータのキャリブレーションについて述べる。
本研究では,3次元実験において,再現および測定した3次元距離を1%の相対誤差で比較することにより,システムのロバスト性と精度を評価する。
論文 参考訳(メタデータ) (2021-01-26T13:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。