論文の概要: DetAny4D: Detect Anything 4D Temporally in a Streaming RGB Video
- arxiv url: http://arxiv.org/abs/2511.18814v1
- Date: Mon, 24 Nov 2025 06:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.054398
- Title: DetAny4D: Detect Anything 4D Temporally in a Streaming RGB Video
- Title(参考訳): DetAny4D:ストリーミングRGBビデオで瞬間的に4Dを検知する
- Authors: Jiawei Hou, Shenghao Zhang, Can Wang, Zheng Gu, Yonggen Ling, Taiping Zeng, Xiangyang Xue, Jingbo Zhang,
- Abstract要約: 既存のオープンセット4Dオブジェクト検出手法は、時間的一貫性をモデル化することなく、フレーム単位で予測を行う。
DetAny4Dは、シーケンシャル入力から直接3D b-boxを予測するオープンセットのエンドツーエンドフレームワークである。
大規模な実験により、DetAny4Dは競合検出精度を達成し、時間安定性を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 29.912863749642156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable 4D object detection, which refers to 3D object detection in streaming video, is crucial for perceiving and understanding the real world. Existing open-set 4D object detection methods typically make predictions on a frame-by-frame basis without modeling temporal consistency, or rely on complex multi-stage pipelines that are prone to error propagation across cascaded stages. Progress in this area has been hindered by the lack of large-scale datasets that capture continuous reliable 3D bounding box (b-box) annotations. To overcome these challenges, we first introduce DA4D, a large-scale 4D detection dataset containing over 280k sequences with high-quality b-box annotations collected under diverse conditions. Building on DA4D, we propose DetAny4D, an open-set end-to-end framework that predicts 3D b-boxes directly from sequential inputs. DetAny4D fuses multi-modal features from pre-trained foundational models and designs a geometry-aware spatiotemporal decoder to effectively capture both spatial and temporal dynamics. Furthermore, it adopts a multi-task learning architecture coupled with a dedicated training strategy to maintain global consistency across sequences of varying lengths. Extensive experiments show that DetAny4D achieves competitive detection accuracy and significantly improves temporal stability, effectively addressing long-standing issues of jitter and inconsistency in 4D object detection. Data and code will be released upon acceptance.
- Abstract(参考訳): 信頼性の高い4Dオブジェクト検出は、ストリーミングビデオにおける3Dオブジェクト検出を指し、現実世界の知覚と理解に不可欠である。
既存のオープンセットの4Dオブジェクト検出手法は、時間的一貫性をモデル化せずにフレーム単位の予測を行うのが一般的である。
この領域の進歩は、継続的信頼性のある3Dバウンディングボックス(b-box)アノテーションをキャプチャする大規模なデータセットの欠如によって妨げられている。
DA4Dは280k以上のシーケンスを含む大規模4D検出データセットであり,様々な条件下で収集される高品質なbボックスアノテーションである。
DA4Dをベースとして,シーケンシャル入力から直接3D b-boxを予測するオープンセットのエンドツーエンドフレームワークであるDetAny4Dを提案する。
DetAny4Dは、事前訓練された基礎モデルからマルチモーダルな特徴を融合し、空間的および時間的両方のダイナミクスを効果的に捉えるために幾何学的に認識された時空間デコーダを設計する。
さらに、マルチタスク学習アーキテクチャと、さまざまな長さのシーケンスをまたいだグローバルな一貫性を維持するための専用のトレーニング戦略が組み合わされている。
DetAny4Dは、競合検出精度を達成し、時間的安定性を著しく向上し、4Dオブジェクト検出におけるジッタと不整合の長年の問題に効果的に対処することを示した。
データとコードは受け入れ次第リリースされる。
関連論文リスト
- M^3Detection: Multi-Frame Multi-Level Feature Fusion for Multi-Modal 3D Object Detection with Camera and 4D Imaging Radar [12.877894178462297]
M3Detectionは、カメラと4Dレーダのマルチモーダルデータに対するマルチレベル特徴融合を実行する、統合されたマルチフレーム3Dオブジェクト検出フレームワークである。
我々は,M3検出器が最先端の3D検出性能を実現し,カメラ4Dイメージングレーダ融合によるマルチフレーム検出の有効性を示した。
論文 参考訳(メタデータ) (2025-10-31T04:34:15Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - 4DRVO-Net: Deep 4D Radar-Visual Odometry Using Multi-Modal and
Multi-Scale Adaptive Fusion [2.911052912709637]
4次元(4D)レーダー-視覚計測(4DRVO)は4次元レーダーとカメラの補完情報を統合している。
4DRVOは4Dレーダーポイント雲の空隙による追跡誤差が顕著である可能性がある。
本稿では,4次元レーダ・ビジュアル・オドメトリーの手法である4DRVO-Netを提案する。
論文 参考訳(メタデータ) (2023-08-12T14:00:09Z) - Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal
Fusion [14.15155927539293]
Sparse4Dは,空間的時間的特徴をスパースサンプリングし,融合させることにより,アンカーボックスの繰り返し改良を行う。
実験では, nuScenesデータセットにおける検出タスクにおいて, スパース法およびほとんどのBEV法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-19T04:20:57Z) - 4D Unsupervised Object Discovery [53.561750858325915]
本研究では,3次元点雲と2次元RGB画像の時間的情報を用いた4次元データからオブジェクトを共同で検出する4次元非教師対象探索を提案する。
本稿では,2次元ローカライゼーションネットワークで協調的に最適化された3次元点雲上にClusterNetを提案することで,この課題に対する最初の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-10T16:05:53Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。