論文の概要: 4DPC$^2$hat: Towards Dynamic Point Cloud Understanding with Failure-Aware Bootstrapping
- arxiv url: http://arxiv.org/abs/2602.03890v1
- Date: Tue, 03 Feb 2026 06:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.204316
- Title: 4DPC$^2$hat: Towards Dynamic Point Cloud Understanding with Failure-Aware Bootstrapping
- Title(参考訳): 4DPC$^2$hat: 障害対応ブートストラップによる動的ポイントクラウド理解に向けて
- Authors: Xindan Zhang, Weilong Yan, Yufei Shi, Xuerui Qiu, Tao He, Ying Li, Ming Li, Hehe Fan,
- Abstract要約: 動的点理解に適した最初のマルチモーダル大規模言語モデルである4DPC dynamic2$hatを提案する。
データセットには44K以上の動的オブジェクトシーケンス、700Kポイントのクラウドフレーム、200Kキュレートされた質問応答ペアが含まれている。
我々のフレームワークは既存のモデルと比較して行動理解と時間的推論を大幅に改善します。
- 参考スコア(独自算出の注目度): 36.85095939951001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point clouds provide a compact and expressive representation of 3D objects, and have recently been integrated into multimodal large language models (MLLMs). However, existing methods primarily focus on static objects, while understanding dynamic point cloud sequences remains largely unexplored. This limitation is mainly caused by the lack of large-scale cross-modal datasets and the difficulty of modeling motions in spatio-temporal contexts. To bridge this gap, we present 4DPC$^2$hat, the first MLLM tailored for dynamic point cloud understanding. To this end, we construct a large-scale cross-modal dataset 4DPC$^2$hat-200K via a meticulous two-stage pipeline consisting of topology-consistent 4D point construction and two-level captioning. The dataset contains over 44K dynamic object sequences, 700K point cloud frames, and 200K curated question-answer (QA) pairs, supporting inquiries about counting, temporal relationship, action, spatial relationship, and appearance. At the core of the framework, we introduce a Mamba-enhanced temporal reasoning MLLM to capture long-range dependencies and dynamic patterns among a point cloud sequence. Furthermore, we propose a failure-aware bootstrapping learning strategy that iteratively identifies model deficiencies and generates targeted QA supervision to continuously strengthen corresponding reasoning capabilities. Extensive experiments demonstrate that our 4DPC$^2$hat significantly improves action understanding and temporal reasoning compared with existing models, establishing a strong foundation for 4D dynamic point cloud understanding.
- Abstract(参考訳): ポイントクラウドは3Dオブジェクトのコンパクトで表現力のある表現を提供し、最近マルチモーダルな大言語モデル (MLLM) に統合された。
しかし、既存のメソッドは主に静的オブジェクトにフォーカスするが、動的ポイントクラウドシーケンスの理解はほとんど探索されていない。
この制限は主に、大規模なクロスモーダルデータセットの欠如と時空間における動きのモデル化の難しさが原因である。
このギャップを埋めるために、4DPC$^2$hatという動的点雲理解に適した最初のMLLMを提示する。
この目的のために、トポロジに一貫性のある4D点構築と2レベルキャプションからなる細かな2段階パイプラインを用いて、大規模クロスモーダルデータセット4DPC$^2$hat-200Kを構築した。
このデータセットには、44K以上の動的オブジェクトシーケンス、700Kポイントのクラウドフレーム、200Kキュレートされた質問応答(QA)ペアが含まれており、カウント、時間的関係、アクション、空間的関係、外観に関する質問をサポートする。
本フレームワークのコアとなるのは,点クラウドシーケンス内の長距離依存関係や動的パターンをキャプチャする,マンバ強化時間推論MLLMの導入である。
さらに、モデル欠陥を反復的に識別し、目標とするQA監視を生成し、それに対応する推論能力を継続的に強化する、フェールアウェアなブートストラッピング学習戦略を提案する。
我々の4DPC$^2$hatは、既存のモデルと比較して行動理解と時間的推論を著しく改善し、4Dダイナミックポイントクラウド理解の強力な基盤を確立します。
関連論文リスト
- Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文 参考訳(メタデータ) (2025-12-23T17:56:36Z) - MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification [10.799902862870288]
MoRelは、時間的に一貫したメモリ効率のモデリングのための新しいフレームワークである。
我々のアプローチは、時間的不連続を緩和し、成果物をひらめかせる。
境界メモリ使用率を維持しつつ、時間的コヒーレントでフリッカフリーなロングレンジ4D再構成を実現する。
論文 参考訳(メタデータ) (2025-12-10T02:49:09Z) - Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation [21.075786141331974]
スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
論文 参考訳(メタデータ) (2025-12-05T21:13:04Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Understanding Dynamic Scenes in Ego Centric 4D Point Clouds [7.004204907286336]
EgoDynamic4Dは、非常にダイナミックなシーンに関する新しいQAベンチマークである。
エージェントの動作,人間と物体の相互作用予測,関係,軌道の理解,時間・因果推論,詳細な指標を含む12の動的QAタスクを設計する。
提案手法は,エゴ中心の動的シーン理解のためのマルチモーダル時間モデルの有効性を検証し,ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-10T09:08:04Z) - Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [70.07088203106443]
既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。
Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
論文 参考訳(メタデータ) (2025-04-07T08:47:36Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しいポイントクラウドビデオ理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。