論文の概要: Segment Any 4D Gaussians
- arxiv url: http://arxiv.org/abs/2407.04504v1
- Date: Fri, 5 Jul 2024 13:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:20:52.772462
- Title: Segment Any 4D Gaussians
- Title(参考訳): Segment any 4D Gaussians
- Authors: Shengxiang Ji, Guanjun Wu, Jiemin Fang, Jiazhong Cen, Taoran Yi, Wenyu Liu, Qi Tian, Xinggang Wang,
- Abstract要約: 我々は,4次元ガウスアン(SA4D)をベースとした4次元デジタル世界において,任意の4次元ガウスアン(SA4D)をセグメンテーションすることを提案する。
SA4Dは4Dガウスで数秒以内の精度で高品質なセグメンテーションを実現し、高品質なマスクを取り除き、色を変え、構成し、レンダリングする能力を示している。
- 参考スコア(独自算出の注目度): 69.53172192552508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling, understanding, and reconstructing the real world are crucial in XR/VR. Recently, 3D Gaussian Splatting (3D-GS) methods have shown remarkable success in modeling and understanding 3D scenes. Similarly, various 4D representations have demonstrated the ability to capture the dynamics of the 4D world. However, there is a dearth of research focusing on segmentation within 4D representations. In this paper, we propose Segment Any 4D Gaussians (SA4D), one of the first frameworks to segment anything in the 4D digital world based on 4D Gaussians. In SA4D, an efficient temporal identity feature field is introduced to handle Gaussian drifting, with the potential to learn precise identity features from noisy and sparse input. Additionally, a 4D segmentation refinement process is proposed to remove artifacts. Our SA4D achieves precise, high-quality segmentation within seconds in 4D Gaussians and shows the ability to remove, recolor, compose, and render high-quality anything masks. More demos are available at: https://jsxzs.github.io/sa4d/.
- Abstract(参考訳): XR/VRでは、現実世界のモデリング、理解、再構築が不可欠である。
近年,3次元ガウス散乱(3D-GS)法は3次元シーンのモデリングと理解において顕著な成功を収めている。
同様に、様々な4D表現は、4D世界のダイナミクスを捉える能力を示している。
しかし、4次元表現のセグメンテーションに焦点をあてる研究が数多く存在する。
本稿では, 4D ガウスをベースとした 4D デジタル世界において, あらゆるものをセグメント化する最初のフレームワークである Segment Any 4D Gaussians (SA4D) を提案する。
SA4Dでは、ガウスのドリフトを扱うために効率的な時間的アイデンティティ特徴場を導入し、ノイズやスパース入力から正確なアイデンティティ特徴を学習することができる。
さらに, アーティファクトを除去するために, 4次元セグメンテーション精製法を提案する。
われわれのSA4Dは4Dガウスで数秒以内の精度で高品質なセグメンテーションを実現し、高品質なマスクを取り除き、色を変え、構成し、レンダリングする能力を示している。
さらなるデモは、https://jsxzs.github.io/sa4d/.comで公開されている。
関連論文リスト
- GenXD: Generating Any 3D and 4D Scenes [137.5455092319533]
本稿では,日常的によく見られるカメラと物体の動きを利用して,一般的な3Dと4Dの生成を共同で調査することを提案する。
すべての3Dおよび4Dデータを活用することで、我々は、あらゆる3Dまたは4Dシーンを生成できるフレームワークであるGenXDを開発した。
論文 参考訳(メタデータ) (2024-11-04T17:45:44Z) - Disco4D: Disentangled 4D Human Generation and Animation from a Single Image [49.188657545633475]
textbfD4Dは、単一の画像から4Dの人間生成とアニメーションのための新しいフレームワークである。
服を人体から遠ざける(SMPL-Xモデル)
鮮明なダイナミックスを備えた4Dアニメーションをサポートする。
論文 参考訳(メタデータ) (2024-09-25T18:46:06Z) - 4D Panoptic Scene Graph Generation [102.22082008976228]
ダイナミックな4次元世界において知覚される生の視覚データをブリッジし,高レベルの視覚的理解を実現する新しい表現である4D Panoptic Scene Graph (PSG-4D)を紹介する。
具体的には、PSG-4Dは、リッチな4D知覚データをノードに抽象化し、正確な位置とステータス情報を持つエンティティとエッジを表現し、時間的関係をキャプチャする。
そこで我々は,PSG4DFormerを提案する。PSG4DFormerはトランスフォーマーベースのモデルで,空間分割マスクを予測し,時間軸に沿ってマスクをトラックし,対応するシーングラフを生成する。
論文 参考訳(メタデータ) (2024-05-16T17:56:55Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering [103.32717396287751]
本研究では,動的シーンの全体像として4D-GS(Gaussian Splatting)を提案する。
HexPlaneにインスパイアされたニューラルボクセル符号化アルゴリズムは、4Dニューラルボクセルの機能を効率的に構築するために提案されている。
我々の4D-GS法は、高解像度の82 FPSで、3090 GPUで800$times$800の解像度でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:21:41Z) - Learning to Generate Customized Dynamic 3D Facial Expressions [47.5220752079009]
本研究では,4次元表情に着目した3次元画像から映像への翻訳について検討した。
我々は、現実的な高解像度の表情を合成するために、アーキテクチャのようなディープメッシュデコーダを用いる。
我々は180名の被験者から6つの表情の4Dスキャンによる高分解能データセットを用いてモデルを訓練した。
論文 参考訳(メタデータ) (2020-07-19T22:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。