論文の概要: DINO_4D: Semantic-Aware 4D Reconstruction
- arxiv url: http://arxiv.org/abs/2604.09877v1
- Date: Fri, 10 Apr 2026 20:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.724974
- Title: DINO_4D: Semantic-Aware 4D Reconstruction
- Title(参考訳): DINO_4D:セマンティック・アウェアの4D再構成
- Authors: Yiru Yang, Zhuojie Wu, Quentin Marguet, Nishant Kumar Singh, Max Schulthess,
- Abstract要約: 本稿では, 凍結したDINOv3特徴を構造的先行として導入し, 再構築プロセスに意味認識を注入するDINO_4Dについて述べる。
Point Odyssey と TUM-Dynamics のベンチマーク実験により,本手法は前者の線形時間複雑性を$O(T)$で維持することを示した。
DINO_4Dは幾何学的精度と意味論的理解の両方を持つ4次元世界モデルを構築するための新しいパラダイムを確立する。
- 参考スコア(独自算出の注目度): 0.6457144394797564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the intersection of computer vision and robotic perception, 4D reconstruction of dynamic scenes serve as the critical bridge connecting low-level geometric sensing with high-level semantic understanding. We present DINO\_4D, introducing frozen DINOv3 features as structural priors, injecting semantic awareness into the reconstruction process to effectively suppress semantic drift during dynamic tracking. Experiments on the Point Odyssey and TUM-Dynamics benchmarks demonstrate that our method maintains the linear time complexity $O(T)$ of its predecessors while significantly improving Tracking Accuracy (APD) and Reconstruction Completeness. DINO\_4D establishes a new paradigm for constructing 4D World Models that possess both geometric precision and semantic understanding.
- Abstract(参考訳): コンピュータビジョンとロボット知覚の交差において、動的シーンの4次元再構成は、低レベルの幾何学的感覚と高レベルの意味理解を繋ぐ重要な橋として機能する。
本稿では,DINO\_4Dについて,凍結したDINOv3特徴を構造的先行として導入し,動的追跡中に意味的ドリフトを効果的に抑制するために,再構成プロセスに意味的認識を注入する。
Point Odyssey と TUM-Dynamics のベンチマークでの実験により,本手法は前者の線形時間複雑性を$O(T)$で維持し,追跡精度(APD)と再構成完全性を大幅に改善することを示した。
DINO\_4Dは幾何学的精度と意味論的理解の両方を持つ4次元世界モデルを構築するための新しいパラダイムを確立する。
関連論文リスト
- Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis [53.10680153186481]
SCas4Dは3次元ガウススプラッティングにおける構造パターンを動的シーンに活用するカスケード最適化フレームワークである。
SCas4Dは、粗い部分レベルから細い点レベルへの変形を段階的に精製することにより、時間フレーム当たり100イテレーション以内の収束を実現する。
このアプローチはまた、自己教師付きオブジェクトセグメンテーション、新しいビュー合成、および高密度点追跡タスクにおける効果を示す。
論文 参考訳(メタデータ) (2025-10-08T06:39:33Z) - 4DRadar-GS: Self-Supervised Dynamic Driving Scene Reconstruction with 4D Radar [15.713470339586058]
動的駆動シーンに適した4次元レーダ拡張型自己教師型3次元再構成フレームワークを提案する。
4DRadar-GSは動的駆動シーン3次元再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-16T10:29:43Z) - CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving [12.006435326659526]
ダイナミックなシーンレンダリングを改善するために,新しい4次元ガウススプラッティング(4DGS)手法を提案する。
具体的には,2次元セマンティックセグメンテーション基盤モデルを用いて,ガウスの4次元セマンティック特徴を自己監督する。
意味的変形特徴と時間的変形特徴の両方を集約して符号化することにより、各ガウスは潜在的な変形補償のための手がかりを備える。
論文 参考訳(メタデータ) (2025-03-09T19:58:51Z) - Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。
我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。
Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文 参考訳(メタデータ) (2024-12-09T18:58:03Z) - NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding [20.79861588128133]
NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。
屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2023-10-12T13:42:49Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - H4D: Human 4D Modeling by Learning Neural Compositional Representation [75.34798886466311]
この研究は、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提示する。
単純で効果的な線形運動モデルを提案し, 粗く規則化された動き推定を行う。
本手法は, 高精度な動作と詳細な形状を持つ動的ヒトの回復に有効であるだけでなく, 様々な4次元人間関連タスクにも有効であることを示す。
論文 参考訳(メタデータ) (2022-03-02T17:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。