論文の概要: Model Optimization for Multi-Camera 3D Detection and Tracking
- arxiv url: http://arxiv.org/abs/2602.00450v2
- Date: Tue, 03 Feb 2026 17:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.829152
- Title: Model Optimization for Multi-Camera 3D Detection and Tracking
- Title(参考訳): マルチカメラ3次元検出・追跡のためのモデル最適化
- Authors: Ethan Anderson, Justin Silva, Kyle Zheng, Sameer Pusegaonkar, Yizhou Wang, Zheng Tang, Sujit Biswas,
- Abstract要約: 室内環境におけるマルチカメラの外部認識の重要性はますます高まっている。
クエリベースの3D検出・追跡フレームワークであるSparse4Dを評価した。
我々は,入力フレームレートの低減,学習後の量子化,WILDTRACKベンチマークへの転送,およびトランスフォーマーエンジンの混合精度の微調整について検討した。
- 参考スコア(独自算出の注目度): 13.756560739163362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Outside-in multi-camera perception is increasingly important in indoor environments, where networks of static cameras must support multi-target tracking under occlusion and heterogeneous viewpoints. We evaluate Sparse4D, a query-based spatiotemporal 3D detection and tracking framework that fuses multi-view features in a shared world frame and propagates sparse object queries via instance memory. We study reduced input frame rates, post-training quantization (INT8 and FP8), transfer to the WILDTRACK benchmark, and Transformer Engine mixed-precision fine-tuning. To better capture identity stability, we report Average Track Duration (AvgTrackDur), which measures identity persistence in seconds. Sparse4D remains stable under moderate FPS reductions, but below 2 FPS, identity association collapses even when detections are stable. Selective quantization of the backbone and neck offers the best speed-accuracy trade-off, while attention-related modules are consistently sensitive to low precision. On WILDTRACK, low-FPS pretraining yields large zero-shot gains over the base checkpoint, while small-scale fine-tuning provides limited additional benefit. Transformer Engine mixed precision reduces latency and improves camera scalability, but can destabilize identity propagation, motivating stability-aware validation.
- Abstract(参考訳): 屋内環境では、外向きのマルチカメラ認識がますます重要になってきており、静的カメラのネットワークは、閉塞的および異種視点下でのマルチターゲットトラッキングをサポートしなければならない。
Sparse4Dは、クエリベースの時空間3D検出・追跡フレームワークで、共有ワールドフレーム内のマルチビュー機能を融合し、インスタンスメモリを介してスパースオブジェクトクエリを伝搬する。
本研究では,入力フレームレートの低減,トレーニング後の量子化(INT8とFP8),WILDTRACKベンチマークへの転送,およびTransformer Engineの混合精度の微調整について検討した。
アイデンティティの安定性をよりよく把握するために、平均トラック時間(AvgTrackDur)を報告します。
スパース4Dは、中程度のFPS還元下では安定だが、2FPS未満では、検出が安定してもアイデンティティーアソシエーションは崩壊する。
バックボーンとネックの選択的量子化は最高速度精度のトレードオフを提供するが、注意関連モジュールは一貫して低い精度に敏感である。
WILDTRACKでは、低FPSプレトレーニングにより、ベースチェックポイント上で大きなゼロショットゲインが得られる一方、小規模の微調整では、追加のメリットが制限される。
Transformer Engineの混合精度はレイテンシを低減し、カメラのスケーラビリティを向上するが、アイデンティティの伝播を不安定にし、安定性を意識するバリデーションを動機付ける。
関連論文リスト
- SOTFormer: A Minimal Transformer for Unified Object Tracking and Trajectory Prediction [3.08657139423562]
最小限の定メモリ時間変換器である textbfSOTFormer を導入する。
オブジェクト検出、トラッキング、短期水平軌道予測を単一のエンドツーエンドフレームワークに統合する。
Mini-LaSOT (20%)ベンチマークでは、SOTFormerは76.3 AUCと53.7 FPS(AMP、4.3GB VRAM)を達成した。
論文 参考訳(メタデータ) (2025-11-14T19:25:05Z) - Color-Pair Guided Robust Zero-Shot 6D Pose Estimation and Tracking of Cluttered Objects on Edge Devices [4.261261166281339]
本稿では,エッジデバイス上での効率的な実行を目的とした統合フレームワークを提案する。
当社のアプローチの鍵は、ライトと不変なカラーペアの特徴表現の共有です。
最初の見積のために、この機能はライブRGB-Dビューとオブジェクトの3Dメッシュの間の堅牢な登録を容易にする。
追跡に関しては、同じ特徴論理が時間的対応を検証し、軽量モデルが物体の動きを確実に回帰させることができる。
論文 参考訳(メタデータ) (2025-09-28T05:07:49Z) - Sparse BEV Fusion with Self-View Consistency for Multi-View Detection and Tracking [15.680801582969393]
SCFusionは、マルチビュー機能統合を改善するための3つのテクニックを組み合わせたフレームワークである。
SCFusionは最先端のパフォーマンスを達成し、WildTrackで95.9%、MultiviewXで89.2%を記録した。
論文 参考訳(メタデータ) (2025-09-10T09:06:41Z) - An End-to-End Framework for Video Multi-Person Pose Estimation [3.090225730976977]
本稿では,ビデオの終末ポーズ推定のための簡易かつ柔軟なフレームワークVEPEを提案する。
提案手法は, 2段階モデルより300%, 推測より300%優れていた。
論文 参考訳(メタデータ) (2025-09-01T03:34:57Z) - Reliability-Driven LiDAR-Camera Fusion for Robust 3D Object Detection [0.0]
本稿では,鳥眼ビュー(BEV)空間で動作するLiDARカメラ融合フレームワークReliFusionを提案する。
ReliFusionは、Spatio-Temporal Feature Aggregation (STFA)モジュール、Reliabilityモジュール、Confidence-Weighted Mutual Cross-Attention (CW-MCA)モジュールという3つの重要なコンポーネントを統合している。
nuScenesデータセットの実験では、ReliFusionは最先端の手法よりも優れており、LiDARの視野に制限のあるシナリオにおいて、より優れた堅牢性と精度を実現している。
論文 参考訳(メタデータ) (2025-02-03T22:07:14Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Minimum Latency Deep Online Video Stabilization [77.68990069996939]
本稿では,オンラインビデオ安定化作業のための新しいカメラパス最適化フレームワークを提案する。
本研究では,近年の市販の高品位深度モーションモデルを用いて動き推定を行い,カメラの軌道を復元する。
我々の手法は、定性的にも量的にも最先端のオンライン手法を大きく上回っている。
論文 参考訳(メタデータ) (2022-12-05T07:37:32Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。