Fugu-MT 論文翻訳(概要): SLS4D: Sparse Latent Space for 4D Novel View Synthesis

論文の概要: SLS4D: Sparse Latent Space for 4D Novel View Synthesis

arxiv url: http://arxiv.org/abs/2312.09743v1
Date: Fri, 15 Dec 2023 12:31:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-18 15:50:06.956408
Title: SLS4D: Sparse Latent Space for 4D Novel View Synthesis
Title（参考訳）: SLS4D:4次元新しいビュー合成のためのスパース潜在空間
Authors: Qi-Yuan Feng, Hao-Xiang Chen, Qun-Ce Xu, Tai-Jiang Mu
Abstract要約: 既存の動的NeRFは通常、変形場に合うように局所的な密度の格子を利用する。 4次元空間は本質的にスパースである。学習可能なスパース潜在空間(SLS4D)を用いて4次元シーンを表現することを提案する。
参考スコア（独自算出の注目度）: 13.73892118198658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural radiance field (NeRF) has achieved great success in novel view synthesis and 3D representation for static scenarios. Existing dynamic NeRFs usually exploit a locally dense grid to fit the deformation field; however, they fail to capture the global dynamics and concomitantly yield models of heavy parameters. We observe that the 4D space is inherently sparse. Firstly, the deformation field is sparse in spatial but dense in temporal due to the continuity of of motion. Secondly, the radiance field is only valid on the surface of the underlying scene, usually occupying a small fraction of the whole space. We thus propose to represent the 4D scene using a learnable sparse latent space, a.k.a. SLS4D. Specifically, SLS4D first uses dense learnable time slot features to depict the temporal space, from which the deformation field is fitted with linear multi-layer perceptions (MLP) to predict the displacement of a 3D position at any time. It then learns the spatial features of a 3D position using another sparse latent space. This is achieved by learning the adaptive weights of each latent code with the attention mechanism. Extensive experiments demonstrate the effectiveness of our SLS4D: it achieves the best 4D novel view synthesis using only about $6\%$ parameters of the most recent work.
Abstract（参考訳）: neural radiance field(nerf)は、静的シナリオのための新しいビュー合成と3d表現で大きな成功を収めている。既存の動的nerfは通常、局所的に密集した格子を利用して変形場に適合するが、大域的なダイナミクスを捉えられず、重パラメータのモデルも同時生成する。 4次元空間は本質的に疎弱である。第一に、変形場は、運動の連続性により空間的にスパースであるが時間的に密度が高い。第二に、放射場は基礎となるシーンの表面でのみ有効であり、通常は空間全体のごく一部を占める。そこで我々は,学習可能なスパース潜在空間,すなわちSLS4Dを用いて4次元シーンを表現することを提案する。具体的には、SLS4Dは、まず高密度な学習可能な時間スロット特徴を用いて時間空間を描写し、そこから変形場に線形多層知覚(MLP)を取り付けて、いつでも3D位置の変位を予測する。その後、別の疎潜在空間を用いて3d位置の空間的特徴を学ぶ。これは各潜在コードの適応重みを注意機構で学習することで達成される。 SLS4Dの有効性を実証し、最新の作品の約6.5%のパラメータで最高の4Dノベルビュー合成を実現する。

関連論文リスト

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation [58.30004328671699]
既存の3次元拡散モデルと時間的拡散モデルから豊かな空間的先行を転送し、4次元合成を強化するフレームワークを提案する。空間・時間差4D(STD-4D)拡散モデルを構築し,空間・時間差による4D映像を合成する。実験の結果,提案手法は従来の手法よりも優れ,空間的時間的整合性と高品質な4D合成を実現していることがわかった。
論文参考訳（メタデータ） (2026-03-05T11:52:21Z)
Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis [53.48281548500864]
Motion 3-to-4は、単一のモノクロビデオから高品質な4Dダイナミックオブジェクトを合成するためのフィードフォワードフレームワークである。我々のモデルは、コンパクトな動き潜在表現を学習し、フレーム単位の軌道を予測して、時間的コヒーレントな幾何である完全なロバスト性を取り戻す。
論文参考訳（メタデータ） (2026-01-20T18:59:48Z)
SS4D: Native 4D Generative Model via Structured Spacetime Latents [50.29500511908054]
モノクロビデオから直接動的3Dオブジェクトを合成する,ネイティブな4D生成モデルであるSS4Dを提案する。発電機を4Dデータで直接訓練し、高忠実度、時間的コヒーレンス、構造的整合性を実現する。
論文参考訳（メタデータ） (2025-12-16T10:45:06Z)
LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding [55.81291976637705]
視覚的4Dシーン理解のための時間的プロンプトを備えた汎用LMMフレームワークを提案する。このプロンプトは、3D位置と1D時間を動的に認識された4D座標埋め込みに符号化することで生成される。 4次元シーン理解において,異なるタスクにまたがる手法の有効性を実証するために実験を行った。
論文参考訳（メタデータ） (2025-05-18T06:18:57Z)
TesserAct: Learning 4D Embodied World Models [66.8519958275311]
我々は、RGB-DN(RGB、Depth、Normal)ビデオのトレーニングにより、4Dワールドモデルを学ぶ。これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
論文参考訳（メタデータ） (2025-04-29T17:59:30Z)
Disentangled 4D Gaussian Splatting: Towards Faster and More Efficient Dynamic Scene Rendering [12.27734287104036]
2次元画像から動的シーンを合成する新アンタングルビュー合成(NVS)は重要な課題である。時間的および空間的変形を両立させる新しい表現・レンダリング手法であるDisentangled 4D Gaussianting(Disentangled4DGS)を導入する。提案手法は,3090 GPU上での1352times1014$の解像度で,343FPSの平均レンダリング速度を実現している。
論文参考訳（メタデータ） (2025-03-28T05:46:02Z)
Dynamic Neural Surfaces for Elastic 4D Shape Representation and Analysis [36.228108480107906]
本研究では, 時間とともに変形・進化する遺伝子ゼロ次元表面の統計的解析のための枠組みを提案する。動的球面ニューラルサーフェス (D-SNS) を導入する。 4次元の人間と顔のデータセット上でのフレームワークの効率を実証する。
論文参考訳（メタデータ） (2025-03-05T03:02:59Z)
4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文参考訳（メタデータ） (2024-12-30T05:30:26Z)
Segment Any 4D Gaussians [69.53172192552508]
我々は,4次元ガウスアン(SA4D)をベースとした4次元デジタル世界において,任意の4次元ガウスアン(SA4D)をセグメンテーションすることを提案する。 SA4Dは4Dガウスで数秒以内の精度で高品質なセグメンテーションを実現し、高品質なマスクを取り除き、色を変え、構成し、レンダリングする能力を示している。
論文参考訳（メタデータ） (2024-07-05T13:44:15Z)
Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting [14.759265492381509]
本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。 3次元構造を頑健に表現する2次元点特徴の抽出を含む。その結果,4次元新規ビュー合成における最先端手法の大幅な改善が示された。
論文参考訳（メタデータ） (2024-06-03T06:52:35Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
4D-Rotor Gaussian Splatting: Towards Efficient Novel View Synthesis for Dynamic Scenes [33.14021987166436]
異方性 4D XYZT Gaussian を用いた動的シーンの表現法である 4DRotorGS を紹介する。 4DRotorGSは空間的時間的表現として、複雑な力学と細部をモデル化する強力な能力を示している。さらに、3090 GPUで最大277FPS、4090 GPUで最大583FPSのリアルタイムレンダリング速度を達成するために、時間スライシングとアクセラレーションのフレームワークを実装しています。
論文参考訳（メタデータ） (2024-02-05T18:59:04Z)
Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文参考訳（メタデータ） (2024-01-12T15:05:08Z)
Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。 3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文参考訳（メタデータ） (2023-12-06T00:46:30Z)
Tensor4D : Efficient Neural 4D Decomposition for High-fidelity Dynamic Reconstruction and Rendering [31.928844354349117]
動的シーンに対する効率的な4次元テンソル分解法を提案する。本手法は,スパースビューカメラや単眼カメラから高品質な動的再構成とレンダリングを実現することができることを示す。コードとデータセットはatliuyebin.com/tensor4d-tensor4d.htmlでリリースされる。
論文参考訳（メタデータ） (2022-11-21T16:04:45Z)
NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文参考訳（メタデータ） (2022-10-28T07:11:05Z)
LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。 LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2022-08-18T03:49:44Z)
V4d: voxel for 4d novel view synthesis [21.985228924523543]
我々は、V4Dと略される4次元神経放射場をモデル化するために3D Voxelを使用し、3Dvoxelは2つのフォーマットを持つ。提案した LUTs ベースの改良モジュールは,計算コストの少ない性能向上を実現する。
論文参考訳（メタデータ） (2022-05-28T04:45:07Z)
4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface [7.637832293935966]
観測されていないジオメトリの非剛体運動を推定する新しいデータ駆動アプローチである4DCompleteを紹介します。ネットワークトレーニングのために,DeformingThings4Dという大規模合成データセットを構築した。
論文参考訳（メタデータ） (2021-05-05T07:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。