論文の概要: Not All Frame Features Are Equal: Video-to-4D Generation via Decoupling Dynamic-Static Features
- arxiv url: http://arxiv.org/abs/2502.08377v1
- Date: Wed, 12 Feb 2025 13:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:05.800406
- Title: Not All Frame Features Are Equal: Video-to-4D Generation via Decoupling Dynamic-Static Features
- Title(参考訳): フレームの全ての特徴が等しくない:動的統計特徴の分離によるビデオから4D生成
- Authors: Liying Yang, Chen Liu, Zhenwei Zhu, Ajian Liu, Hui Ma, Jian Nong, Yanyan Liang,
- Abstract要約: 動的静的特徴分離モジュール(DSFD)を提案する。
動的特徴と現在のフレーム特徴によって駆動される分離された特徴を取得する。
空間軸に沿って、動的領域の同様の情報を適応的に選択する。
- 参考スコア(独自算出の注目度): 14.03066701768256
- License:
- Abstract: Recently, the generation of dynamic 3D objects from a video has shown impressive results. Existing methods directly optimize Gaussians using whole information in frames. However, when dynamic regions are interwoven with static regions within frames, particularly if the static regions account for a large proportion, existing methods often overlook information in dynamic regions and are prone to overfitting on static regions. This leads to producing results with blurry textures. We consider that decoupling dynamic-static features to enhance dynamic representations can alleviate this issue. Thus, we propose a dynamic-static feature decoupling module (DSFD). Along temporal axes, it regards the portions of current frame features that possess significant differences relative to reference frame features as dynamic features. Conversely, the remaining parts are the static features. Then, we acquire decoupled features driven by dynamic features and current frame features. Moreover, to further enhance the dynamic representation of decoupled features from different viewpoints and ensure accurate motion prediction, we design a temporal-spatial similarity fusion module (TSSF). Along spatial axes, it adaptively selects a similar information of dynamic regions. Hinging on the above, we construct a novel approach, DS4D. Experimental results verify our method achieves state-of-the-art (SOTA) results in video-to-4D. In addition, the experiments on a real-world scenario dataset demonstrate its effectiveness on the 4D scene. Our code will be publicly available.
- Abstract(参考訳): 近年,映像から動的3Dオブジェクトが生成され,印象的な結果が得られた。
既存の手法はフレーム内の全情報を用いてガウスを直接最適化する。
しかし、動的領域がフレーム内の静的領域と織り合わされる場合、特に静的領域が大きな割合を占める場合、既存の手法はしばしば動的領域の情報を見落とし、静的領域に過度に適合する傾向にある。
これにより、ぼやけたテクスチャで結果が得られる。
動的表現を強化するために動的静的な機能を分離することはこの問題を軽減することができると考えている。
そこで我々はDSFD(Dynamic-static Feature Decoupling Module)を提案する。
時間軸に沿って、参照フレームの特徴と大きく異なる現在のフレーム特徴の一部を動的特徴とみなす。
逆に、残りの部分は静的な特徴である。
そして、動的特徴と現在のフレーム特徴によって駆動される分離された特徴を取得する。
さらに、異なる視点から分離された特徴の動的表現をさらに強化し、正確な動き予測を保証するため、時間空間類似性融合モジュール(TSSF)を設計する。
空間軸に沿って、動的領域の同様の情報を適応的に選択する。
そこで我々は,新たなアプローチDS4Dを構築した。
実験により, ビデオから4Dまで, 最先端のSOTA(State-of-the-art)を検証した。
さらに、実世界のシナリオデータセットの実験は、4Dシーンでその効果を実証している。
私たちのコードは公開されます。
関連論文リスト
- 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos [101.48581851337703]
動的シーンのリアルタイム再構成と新しいビュー合成のための,モーション対応フィードフォワードモデルであるBTimerを提案する。
提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。
カジュアルなモノクロのダイナミックビデオが与えられた後、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的両方のシーンデータセットで最先端のパフォーマンスに到達した。
論文 参考訳(メタデータ) (2024-12-04T18:15:06Z) - Urban4D: Semantic-Guided 4D Gaussian Splatting for Urban Scene Reconstruction [86.4386398262018]
Urban4Dは、深い2Dセマンティックマップ生成の進歩に触発されたセマンティック誘導分解戦略である。
我々のアプローチは、信頼できるセマンティック・ガウシアンを通して潜在的に動的対象を区別する。
実世界のデータセットでの実験では、Urban4Dは従来の最先端の手法と同等または優れた品質を実現している。
論文 参考訳(メタデータ) (2024-12-04T16:59:49Z) - DENSER: 3D Gaussians Splatting for Scene Reconstruction of Dynamic Urban Environments [0.0]
動的オブジェクトの表現を大幅に強化するフレームワークであるDENSERを提案する。
提案手法は最先端の手法を広いマージンで大幅に上回る。
論文 参考訳(メタデータ) (2024-09-16T07:11:58Z) - Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。
HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。
連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文 参考訳(メタデータ) (2024-04-21T02:21:30Z) - Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis [58.5779956899918]
動的シーンビュー合成と6自由度(6-DOF)追跡のタスクを同時に処理する手法を提案する。
我々は、シーンを3Dガウスアンのコレクションとしてモデル化する最近の研究に触発された、分析バイシンセサイザーの枠組みに従う。
我々は,1人称視点合成,動的合成シーン合成,4次元映像編集など,我々の表現によって実現された多数のダウンストリームアプリケーションを紹介した。
論文 参考訳(メタデータ) (2023-08-18T17:59:21Z) - Efficient 3D Reconstruction, Streaming and Visualization of Static and
Dynamic Scene Parts for Multi-client Live-telepresence in Large-scale
Environments [6.543101569579952]
本研究では,静的シーンと動的シーンの双方で,部屋規模を超えて大規模環境下での3Dライブテレプレゼンス体験の共有を目指す。
我々のシステムは、リアルタイムに近い速度でVRベースのライブテレプレゼンスを実現することができる。
論文 参考訳(メタデータ) (2022-11-25T18:59:54Z) - STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding [68.96574451918458]
静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。
静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。
提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
論文 参考訳(メタデータ) (2022-07-06T15:48:58Z) - D$^2$NeRF: Self-Supervised Decoupling of Dynamic and Static Objects from
a Monocular Video [23.905013304668426]
モノクロ映像が与えられたとき、静的環境を回復しながら動的オブジェクトを分割して分離することは、マシンインテリジェンスにおいて広く研究されている問題である。
Decoupled Dynamic Neural Radiance Field (D$2$NeRF) は、モノクロ映像を撮り、3Dシーンの表現を学習する自己教師型アプローチである。
論文 参考訳(メタデータ) (2022-05-31T14:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。