論文の概要: DeformGS: Scene Flow in Highly Deformable Scenes for Deformable Object Manipulation
- arxiv url: http://arxiv.org/abs/2312.00583v2
- Date: Fri, 30 Aug 2024 15:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 20:31:28.517499
- Title: DeformGS: Scene Flow in Highly Deformable Scenes for Deformable Object Manipulation
- Title(参考訳): DeformGS: 変形可能なオブジェクト操作のための高変形性シーンにおけるシーンフロー
- Authors: Bardienus P. Duisterhof, Zhao Mandi, Yunchao Yao, Jia-Wei Liu, Jenny Seidenschwarz, Mike Zheng Shou, Deva Ramanan, Shuran Song, Stan Birchfield, Bowen Wen, Jeffrey Ichnowski,
- Abstract要約: DeformGSは、複数のカメラからダイナミックなシーンを同時撮影することで、高度に変形可能なシーンのシーンフローを復元するアプローチである。
DeformGSは最先端と比較して平均55.8%の3Dトラッキングを改善している。
十分なテクスチャで、DeformGSは1.5 x 1.5 mの布の上で3.3mmの中央値追跡誤差を達成している。
- 参考スコア(独自算出の注目度): 66.7719069053058
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Teaching robots to fold, drape, or reposition deformable objects such as cloth will unlock a variety of automation applications. While remarkable progress has been made for rigid object manipulation, manipulating deformable objects poses unique challenges, including frequent occlusions, infinite-dimensional state spaces and complex dynamics. Just as object pose estimation and tracking have aided robots for rigid manipulation, dense 3D tracking (scene flow) of highly deformable objects will enable new applications in robotics while aiding existing approaches, such as imitation learning or creating digital twins with real2sim transfer. We propose DeformGS, an approach to recover scene flow in highly deformable scenes, using simultaneous video captures of a dynamic scene from multiple cameras. DeformGS builds on recent advances in Gaussian splatting, a method that learns the properties of a large number of Gaussians for state-of-the-art and fast novel-view synthesis. DeformGS learns a deformation function to project a set of Gaussians with canonical properties into world space. The deformation function uses a neural-voxel encoding and a multilayer perceptron (MLP) to infer Gaussian position, rotation, and a shadow scalar. We enforce physics-inspired regularization terms based on conservation of momentum and isometry, which leads to trajectories with smaller trajectory errors. We also leverage existing foundation models SAM and XMEM to produce noisy masks, and learn a per-Gaussian mask for better physics-inspired regularization. DeformGS achieves high-quality 3D tracking on highly deformable scenes with shadows and occlusions. In experiments, DeformGS improves 3D tracking by an average of 55.8% compared to the state-of-the-art. With sufficient texture, DeformGS achieves a median tracking error of 3.3 mm on a cloth of 1.5 x 1.5 m in area. Website: https://deformgs.github.io
- Abstract(参考訳): ロボットに布などの変形可能な物体の折り畳み、ドレープ、あるいは再配置を教えることで、さまざまな自動化アプリケーションをアンロックする。
剛体物体の操作には顕著な進歩があるが、変形可能な物体を操作することは、しばしば閉塞、無限次元状態空間、複雑な力学など、ユニークな課題を生んでいる。
オブジェクトのポーズ推定と追跡が、厳密な操作のためのロボットを支援するのと同じように、高度に変形可能なオブジェクトの密集した3Dトラッキング(シーンフロー)は、模倣学習やリアル2sim転送によるデジタルツインの作成といった既存のアプローチを支援しながら、ロボット工学の新たな応用を可能にする。
複数のカメラからダイナミックなシーンを同時撮影することで、高度に変形可能なシーンのシーンフローを復元するDeformGSを提案する。
DeformGSは、最先端で高速なノベルビュー合成のために多数のガウス人の特性を学習する手法であるガウススプラッティングの最近の進歩を基盤としている。
DeformGSは変形関数を学び、標準的性質を持つガウスの集合を世界空間に射影する。
変形関数は、ガウスの位置、回転、シャドウスカラーを推測するために、ニューラルボクセル符号化と多層パーセプトロン(MLP)を用いる。
運動量と等距離の保存に基づく物理に着想を得た正規化項を施行し、より小さな軌道誤差を伴う軌道を導いた。
また、既存の基礎モデルSAMとXMEMを利用してノイズマスクを作成し、ガウス毎のマスクを学習し、物理学に着想を得た正規化を改良する。
DeformGSは、シャドーとオクルージョンを備えた高度に変形可能なシーンで高品質な3Dトラッキングを実現する。
実験では、DeformGSは最先端と比較して平均55.8%の3Dトラッキングを改善している。
十分なテクスチャで、DeformGSは1.5 x 1.5 mの布の上で3.3mmの中央値追跡誤差を達成している。
ウェブサイト:https://deformgs.github.io
関連論文リスト
- Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling [10.247075501610492]
マルチビューRGBビデオからオブジェクトダイナミクスを直接学習するフレームワークを導入する。
グラフニューラルネットワークを用いて粒子ベース力学モデルを訓練する。
本手法は,初期設定の異なる物体の動きやロボットの動作を予測できる。
論文 参考訳(メタデータ) (2024-10-24T17:02:52Z) - MotionGS: Exploring Explicit Motion Guidance for Deformable 3D Gaussian Splatting [56.785233997533794]
我々はMotionGSと呼ばれる新しい変形可能な3次元ガウススプレイティングフレームワークを提案する。
MotionGSは3Dガウスの変形を導くために、前もって明示的な動きを探索する。
モノラルなダイナミックシーンの実験では、MotionGSが最先端の手法を超越していることが確認された。
論文 参考訳(メタデータ) (2024-10-10T08:19:47Z) - LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field [13.815932949774858]
シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせた視覚メディアの一種である。
本稿では,3次元ガウスモデルを用いて,2次元画像空間から3次元空間への撮影画像の高次化を提案する。
実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。
論文 参考訳(メタデータ) (2024-04-13T11:07:53Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - UV Gaussians: Joint Learning of Mesh Deformation and Gaussian Textures for Human Avatar Modeling [71.87807614875497]
メッシュ変形と2次元UV空間のガウステクスチャを共同学習することで3次元人体をモデル化するUVガウスアンを提案する。
我々は,多視点画像,走査モデル,パラメトリックモデル登録,およびそれに対応するテクスチャマップを含む,人間の動作の新たなデータセットを収集し,処理する。
論文 参考訳(メタデータ) (2024-03-18T09:03:56Z) - Rig3DGS: Creating Controllable Portraits from Casual Monocular Videos [33.779636707618785]
我々はRig3DGSを導入し、カジュアルなスマートフォンビデオからコントロール可能な3D人間の肖像画を作成する。
鍵となる革新は、慎重に設計された変形法であり、3次元形態素モデルから派生した学習可能な先行モデルによって導かれる。
定量的および定性的な実験によって学習した変形の有効性を実証する。
論文 参考訳(メタデータ) (2024-02-06T05:40:53Z) - MoDA: Modeling Deformable 3D Objects from Casual Videos [84.29654142118018]
神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。
異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。
本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
論文 参考訳(メタデータ) (2023-04-17T13:49:04Z) - Animatable Implicit Neural Representations for Creating Realistic
Avatars from Videos [63.16888987770885]
本稿では,マルチビュー映像からアニマタブルな人間モデルを構築することの課題について述べる。
線形ブレンドスキンアルゴリズムに基づくポーズ駆動変形場を提案する。
提案手法は,近年の人体モデリング手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。