論文の概要: A Unified 3D Object Perception Framework for Real-Time Outside-In Multi-Camera Systems
- arxiv url: http://arxiv.org/abs/2601.10819v1
- Date: Thu, 15 Jan 2026 19:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.27328
- Title: A Unified 3D Object Perception Framework for Real-Time Outside-In Multi-Camera Systems
- Title(参考訳): マルチカメラシステムにおけるリアルタイム3次元物体認識フレームワーク
- Authors: Yizhou Wang, Sameer Pusegaonkar, Yuxing Wang, Anqi Li, Vishal Kumar, Chetan Sethi, Ganapathy Aiyer, Yun He, Kartikay Thakkar, Swapnil Rathi, Bhushan Rupde, Zheng Tang, Sujit Biswas,
- Abstract要約: 大規模インフラ環境向けに最適化されたSparse4Dフレームワークを提案する。
我々は、NVIDIA COSMOSフレームワークを使用して、Sim2Realドメインギャップを橋渡しする生成データ拡張戦略を採用している。
AI City Challenge 2025ベンチマークに基づいて、我々のカメラのみのフレームワークは、最先端のHOTAの45.22ドルを達成した。
- 参考スコア(独自算出の注目度): 16.644881371951175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D object perception and multi-target multi-camera (MTMC) tracking are fundamental for the digital transformation of industrial infrastructure. However, transitioning "inside-out" autonomous driving models to "outside-in" static camera networks presents significant challenges due to heterogeneous camera placements and extreme occlusion. In this paper, we present an adapted Sparse4D framework specifically optimized for large-scale infrastructure environments. Our system leverages absolute world-coordinate geometric priors and introduces an occlusion-aware ReID embedding module to maintain identity stability across distributed sensor networks. To bridge the Sim2Real domain gap without manual labeling, we employ a generative data augmentation strategy using the NVIDIA COSMOS framework, creating diverse environmental styles that enhance the model's appearance-invariance. Evaluated on the AI City Challenge 2025 benchmark, our camera-only framework achieves a state-of-the-art HOTA of $45.22$. Furthermore, we address real-time deployment constraints by developing an optimized TensorRT plugin for Multi-Scale Deformable Aggregation (MSDA). Our hardware-accelerated implementation achieves a $2.15\times$ speedup on modern GPU architectures, enabling a single Blackwell-class GPU to support over 64 concurrent camera streams.
- Abstract(参考訳): 正確な3Dオブジェクト認識とマルチターゲットマルチカメラ(MTMC)トラッキングは,産業インフラのディジタルトランスフォーメーションの基盤となる。
しかし、"サイドアウト"な自律走行モデルから"サイドイン"な静的カメラネットワークへの移行は、不均一なカメラ配置と極端な閉塞による重大な課題を呈している。
本稿では,大規模インフラ環境に特化して最適化されたSparse4Dフレームワークを提案する。
本システムでは、絶対的世界座標の幾何的先行性を活用し、分散センサネットワーク間のアイデンティティ安定性を維持するために、Occlusion-aware ReID埋め込みモジュールを導入している。
手動ラベリングを使わずにSim2Realドメインギャップをブリッジするために、NVIDIA COSMOSフレームワークを用いた生成データ拡張戦略を採用し、モデルの外観不変性を高める多様な環境スタイルを作成する。
AI City Challenge 2025ベンチマークに基づいて、我々のカメラのみのフレームワークは、最先端のHOTAの45.22ドルを達成した。
さらに,マルチスケール・デフォルタブル・アグリゲーション(MSDA)向けに最適化されたTensorRTプラグインを開発することで,リアルタイムデプロイメントの制約に対処する。
我々のハードウェアアクセラレーションは、現代のGPUアーキテクチャで2.15\times$のスピードアップを実現し、単一のBlackwellクラスのGPUが64以上の同時カメラストリームをサポートすることができる。
関連論文リスト
- MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-12T17:59:09Z) - MGSfM: Multi-Camera Geometry Driven Global Structure-from-Motion [13.24058110580706]
マルチカメラシステムのための新しいグローバルモーション平均化フレームワークを提案する。
我々のシステムは、効率を大幅に改善しながら、漸進的なSfM精度に適合または超える。
論文 参考訳(メタデータ) (2025-07-04T05:25:00Z) - S3MOT: Monocular 3D Object Tracking with Selective State Space Model [3.5047603107971397]
3次元空間における多物体追跡は、ロボット工学とコンピュータ応用の進歩に不可欠である。
2Dビデオストリームからの3Dアソシエーションのマイニングが難しいため、モノラルなセットアップでは依然として大きな課題である。
モノクローナル3次元MOTのための不均一なキューの融合を促進するための3つの革新的な技術を提案する。
論文 参考訳(メタデータ) (2025-04-25T04:45:35Z) - FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文 参考訳(メタデータ) (2025-03-21T12:27:49Z) - MetaOcc: Spatio-Temporal Fusion of Surround-View 4D Radar and Camera for 3D Occupancy Prediction with Dual Training Strategies [12.485905108032146]
本稿では,Omni指向の3次元占有予測のための新しいマルチモーダルフレームワークであるMetaOccを紹介する。
レーダーデータにエンコーダを直接適用することの限界に対処するため,レーダハイト自己保持モジュールを提案する。
高価な点クラウドへの依存を軽減するため,オープンセットセグメンタに基づく擬似ラベル生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-26T03:51:56Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。