論文の概要: VideoArtGS: Building Digital Twins of Articulated Objects from Monocular Video
- arxiv url: http://arxiv.org/abs/2509.17647v1
- Date: Mon, 22 Sep 2025 11:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.355752
- Title: VideoArtGS: Building Digital Twins of Articulated Objects from Monocular Video
- Title(参考訳): VideoArtGS:モノクロビデオから人工物体のデジタル双眼鏡を作る
- Authors: Yu Liu, Baoxiong Jia, Ruijie Lu, Chuyue Gan, Huayu Chen, Junfeng Ni, Song-Chun Zhu, Siyuan Huang,
- Abstract要約: モノクロビデオから音声化されたオブジェクトのデジタルツインを構築することは、コンピュータビジョンにおいて重要な課題である。
本稿では,モノクロ映像から高忠実度デジタル双対を再構成する新しい手法であるVideoArtGSを紹介する。
VideoArtGSは、調音およびメッシュ再構成における最先端性能を示し、既存の方法に比べて約2桁の再現誤差を低減している。
- 参考スコア(独自算出の注目度): 60.63575135514847
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Building digital twins of articulated objects from monocular video presents an essential challenge in computer vision, which requires simultaneous reconstruction of object geometry, part segmentation, and articulation parameters from limited viewpoint inputs. Monocular video offers an attractive input format due to its simplicity and scalability; however, it's challenging to disentangle the object geometry and part dynamics with visual supervision alone, as the joint movement of the camera and parts leads to ill-posed estimation. While motion priors from pre-trained tracking models can alleviate the issue, how to effectively integrate them for articulation learning remains largely unexplored. To address this problem, we introduce VideoArtGS, a novel approach that reconstructs high-fidelity digital twins of articulated objects from monocular video. We propose a motion prior guidance pipeline that analyzes 3D tracks, filters noise, and provides reliable initialization of articulation parameters. We also design a hybrid center-grid part assignment module for articulation-based deformation fields that captures accurate part motion. VideoArtGS demonstrates state-of-the-art performance in articulation and mesh reconstruction, reducing the reconstruction error by about two orders of magnitude compared to existing methods. VideoArtGS enables practical digital twin creation from monocular video, establishing a new benchmark for video-based articulated object reconstruction. Our work is made publicly available at: https://videoartgs.github.io.
- Abstract(参考訳): 単眼ビデオから調音された物体のデジタル双対を構築することは、物体形状、部分分割、および限定的な視点入力からの調音パラメータの同時再構成を必要とするコンピュータビジョンにおいて重要な課題である。
モノクロビデオは、そのシンプルさとスケーラビリティのために魅力的な入力フォーマットを提供するが、カメラと部品の関節の動きが不適切な推定につながるため、オブジェクトの幾何学と部分のダイナミクスを視覚的監督だけで切り離すことは困難である。
事前訓練された追跡モデルによる動きの先行は問題を緩和するが、調音学習に効果的に統合する方法は、まだ明らかにされていない。
この問題を解決するために,モノクロ映像から高忠実度デジタル双対を再構成するVideoArtGSを導入する。
本稿では,3次元トラックを解析し,ノイズをフィルタし,調音パラメータの信頼性の高い初期化を提供する動き事前誘導パイプラインを提案する。
また,正確な部分運動をキャプチャする調音に基づく変形場のためのハイブリッドセンターグリッド部分割当モジュールを設計する。
VideoArtGSは、調音およびメッシュ再構成における最先端性能を示し、既存の方法に比べて約2桁の再現誤差を低減している。
VideoArtGSは、モノクロビデオから実用的なデジタル双対生成を可能にし、ビデオベースの調音オブジェクト再構成のための新しいベンチマークを確立する。
私たちの作品は、https://videoartgs.github.io.comで公開されています。
関連論文リスト
- SAFT: Shape and Appearance of Fabrics from Template via Differentiable Physical Simulations from Monocular Video [6.408363851409316]
本稿では,3次元幾何再構成の領域と外見推定を組み合わせた物理ベースのレンダリング手法を提案する。
本稿では,単一の単分子RGBビデオシーケンスのみを入力として,ファブリックのための両方のタスクを実行できるシステムを提案する。
現場における最近の手法と比較して、3次元再構成における誤差を2.64倍に減らし、1シーンあたり30分の中程度のランタイムを必要とする。
論文 参考訳(メタデータ) (2025-09-10T17:59:57Z) - Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry [41.904066758259624]
ビデオカメラトラジェクトリ編集のための新しいフレームワークであるVid-CamEditを紹介する。
我々のアプローチは、時間的に一貫した幾何を推定する2つのステップと、この幾何学によって導かれる生成的レンダリングからなる。
論文 参考訳(メタデータ) (2025-06-16T17:02:47Z) - ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction [22.420752010237052]
本稿では,パラメータ化された3次元物理知識を条件付きビデオ生成モデルに明示的に統合するプラグイン・アンド・プレイフレームワークReVisionを紹介する。
ReVisionは動きの忠実度とコヒーレンスを大幅に向上させる。
以上の結果から,3次元物理知識を取り入れることで,比較的小さな映像拡散モデルでも複雑な動きや,より現実性や操作性の高いインタラクションを生成できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T17:59:56Z) - REACTO: Reconstructing Articulated Objects from a Single Video [64.89760223391573]
関節の柔軟な変形を維持しつつ各部の剛性を向上する新しい変形モデルを提案する。
提案手法は, 従来よりも高忠実度な3D再構成を実現する上で, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-17T08:01:55Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。