論文の概要: Articulat3D: Reconstructing Articulated Digital Twins From Monocular Videos with Geometric and Motion Constraints
- arxiv url: http://arxiv.org/abs/2603.11606v1
- Date: Thu, 12 Mar 2026 06:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.937449
- Title: Articulat3D: Reconstructing Articulated Digital Twins From Monocular Videos with Geometric and Motion Constraints
- Title(参考訳): Articulat3D:幾何学的・運動的制約による単眼映像からのArticulated Digital Twinsの再構成
- Authors: Lijun Guo, Haoyu Zhao, Xingyue Zhao, Rong Fu, Linghao Zhuang, Siteng Huang, Zhongyu Li, Hua Zou,
- Abstract要約: Articulat3Dは、カジュアルにキャプチャされたモノクロビデオからデジタルツインを構築する新しいフレームワークである。
まず,3次元の軌跡を利用して調音運動の低次元構造を利用する動き優先初期化を提案する。
次に、物理的に可算な調音を強制する幾何学的・運動的制約(Geometric and Motion Constraints Refinement)を導入する。
実験により、Articulat3Dは、合成ベンチマークと現実世界のカジュアルにキャプチャされたモノクロビデオで最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 21.83046776294786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building high-fidelity digital twins of articulated objects from visual data remains a central challenge. Existing approaches depend on multi-view captures of the object in discrete, static states, which severely constrains their real-world scalability. In this paper, we introduce Articulat3D, a novel framework that constructs such digital twins from casually captured monocular videos by jointly enforcing explicit 3D geometric and motion constraints. We first propose Motion Prior-Driven Initialization, which leverages 3D point tracks to exploit the low-dimensional structure of articulated motion. By modeling scene dynamics with a compact set of motion bases, we facilitate soft decomposition of the scene into multiple rigidly-moving groups. Building on this initialization, we introduce Geometric and Motion Constraints Refinement, which enforces physically plausible articulation through learnable kinematic primitives parameterized by a joint axis, a pivot point, and per-frame motion scalars, yielding reconstructions that are both geometrically accurate and temporally coherent. Extensive experiments demonstrate that Articulat3D achieves state-of-the-art performance on synthetic benchmarks and real-world casually captured monocular videos, significantly advancing the feasibility of digital twin creation under uncontrolled real-world conditions. Our project page is at https://maxwell-zhao.github.io/Articulat3D.
- Abstract(参考訳): 視覚データから調音されたオブジェクトの高忠実なデジタルツインを構築することは、依然として中心的な課題である。
既存のアプローチは、オブジェクトの離散的な静的な状態におけるマルチビューキャプチャに依存しており、現実のスケーラビリティを著しく制限している。
本稿では,これらのデジタルツインをモノクロビデオから構築する新しいフレームワークであるArticulat3Dを紹介する。
まず,3次元の軌跡を利用して調音運動の低次元構造を利用する動き優先初期化を提案する。
コンパクトなモーションベースでシーンダイナミクスをモデル化することにより、シーンのソフトな分解を複数の厳密な移動群に容易に行うことができる。
この初期化に基づいて, 幾何学的・運動的制約(Geometric and Motion Constraints Refinement)を導入する。これは, 関節軸, ピボット点, フレームごとの運動スカラーによってパラメータ化される学習可能な運動プリミティブを通じて, 物理的に可塑性な調音を強制し, 幾何的精度と時間的コヒーレントな再構成をもたらす。
大規模な実験により、Articulat3Dは、合成ベンチマークと実世界のカジュアルなモノクロビデオで最先端のパフォーマンスを達成し、制御されていない実世界の条件下でのデジタルツイン生成の可能性を大幅に向上させた。
私たちのプロジェクトページはhttps://maxwell-zhao.github.io/Articulat3D.comです。
関連論文リスト
- Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints [87.13154261503168]
モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。
既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。
単一の参照フレームからエゴセントリックなビデオを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-12T10:02:23Z) - AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。
我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文 参考訳(メタデータ) (2026-02-04T15:42:58Z) - SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis [47.61773799705708]
同期多視点HOIビデオと4Dモーションを共同生成する最初のモデルであるSyncMV4Dを紹介する。
本手法は,視覚リアリズム,運動可視性,多視点整合性において,最先端の代替手段よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-11-24T17:14:19Z) - VideoArtGS: Building Digital Twins of Articulated Objects from Monocular Video [60.63575135514847]
モノクロビデオから音声化されたオブジェクトのデジタルツインを構築することは、コンピュータビジョンにおいて重要な課題である。
本稿では,モノクロ映像から高忠実度デジタル双対を再構成する新しい手法であるVideoArtGSを紹介する。
VideoArtGSは、調音およびメッシュ再構成における最先端性能を示し、既存の方法に比べて約2桁の再現誤差を低減している。
論文 参考訳(メタデータ) (2025-09-22T11:52:02Z) - Seeing World Dynamics in a Nutshell [132.79736435144403]
NutWorldはモノクロ動画をダイナミックな3D表現に変換するフレームワークである。
我々は,NutWorldがリアルタイムにダウンストリームアプリケーションを実現しつつ,高忠実度ビデオ再構成品質を実現することを実証した。
論文 参考訳(メタデータ) (2025-02-05T18:59:52Z) - Shape of Motion: 4D Reconstruction from a Single Video [42.42669078777769]
本稿では,世界座標フレーム内の3次元運動軌跡を明示的かつ永続的に特徴付ける,ジェネリックダイナミックシーンの再構築手法を提案する。
まず,コンパクトなSE(3)モーションベースでシーンの動きを表現することで,3次元動作の低次元構造を利用する。
第2に,単眼深度マップや長距離2Dトラックなどの既成データ駆動の先行データを利用して,これらのノイズを効果的に処理する方法を考案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。