論文の概要: VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling
- arxiv url: http://arxiv.org/abs/2508.02129v1
- Date: Mon, 04 Aug 2025 07:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.220809
- Title: VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling
- Title(参考訳): VDEGaussian:動的都市景観モデリングのためのビデオ拡散強化4次元ガウススプレイティング
- Authors: Yuru Xiao, Zihan Lin, Chao Lu, Deming Zhai, Kui Jiang, Wenbo Zhao, Wei Zhang, Junjun Jiang, Huanran Wang, Xianming Liu,
- Abstract要約: 本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
- 参考スコア(独自算出の注目度): 68.65587507038539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic urban scene modeling is a rapidly evolving area with broad applications. While current approaches leveraging neural radiance fields or Gaussian Splatting have achieved fine-grained reconstruction and high-fidelity novel view synthesis, they still face significant limitations. These often stem from a dependence on pre-calibrated object tracks or difficulties in accurately modeling fast-moving objects from undersampled capture, particularly due to challenges in handling temporal discontinuities. To overcome these issues, we propose a novel video diffusion-enhanced 4D Gaussian Splatting framework. Our key insight is to distill robust, temporally consistent priors from a test-time adapted video diffusion model. To ensure precise pose alignment and effective integration of this denoised content, we introduce two core innovations: a joint timestamp optimization strategy that refines interpolated frame poses, and an uncertainty distillation method that adaptively extracts target content while preserving well-reconstructed regions. Extensive experiments demonstrate that our method significantly enhances dynamic modeling, especially for fast-moving objects, achieving an approximate PSNR gain of 2 dB for novel view synthesis over baseline approaches.
- Abstract(参考訳): ダイナミック・アーバン・シーン・モデリングは広範に応用された急速に発展している分野である。
ニューラルラディアンス場やガウススプラッティングを応用した現在のアプローチは、微細な再構成と高忠実なノベルビュー合成を実現しているが、それらは依然として重大な制限に直面している。
これらはしばしば、事前に校正された物体の軌跡に依存することや、特に時間的不連続性を扱うことの難しさから、素早く動く物体をアンサンプから正確にモデル化することの難しさに起因している。
これらの課題を克服するため,我々は新しい4次元ガウス分割フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
補間フレームのポーズを洗練させる共同タイムスタンプ最適化戦略と、よく再構成された領域を保存しながらターゲットコンテンツを適応的に抽出する不確実な蒸留手法の2つの中心的革新を導入する。
広汎な実験により,本手法は動的モデリング,特に高速移動物体において,ベースラインアプローチによる新しいビュー合成のための2dBのPSNRゲインを達成できることが実証された。
関連論文リスト
- CTRL-GS: Cascaded Temporal Residue Learning for 4D Gaussian Splatting [28.308077474731594]
動的シーンのための4次元ガウススプラッティングの新規拡張を提案する。
動的シーンを「ビデオ・セグメンテーション・フレーム」構造に分解し、セグメントを光学的フローで動的に調整する。
いくつかの確立したデータセット上で、最先端の視覚的品質とリアルタイムレンダリングを実証する。
論文 参考訳(メタデータ) (2025-05-23T19:01:55Z) - EvolvingGS: High-Fidelity Streamable Volumetric Video via Evolving 3D Gaussian Representation [14.402479944396665]
EvolvingGSは、まずターゲットフレームに合わせるためにガウスモデルを変形させ、最小点加算/減算で洗練する2段階戦略である。
漸進的に進化する表現の柔軟性のため,本手法はフレーム単位と時間単位の品質指標の両方で既存手法より優れている。
我々の手法は、特に複雑な人間のパフォーマンスを持つ拡張シーケンスにおいて、動的シーン再構成の最先端性を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-07T06:01:07Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - Adaptive and Temporally Consistent Gaussian Surfels for Multi-view Dynamic Reconstruction [3.9363268745580426]
AT-GSは、フレーム単位のインクリメンタル最適化により、多視点ビデオから高品質な動的曲面を再構成する新しい手法である。
連続するフレーム間の曲率写像の整合性を確保することにより、動的表面における時間的ジッタリングを低減する。
本手法は動的表面再構成の精度と時間的コヒーレンスを向上し,高忠実度空間時間新奇なビュー合成を実現する。
論文 参考訳(メタデータ) (2024-11-10T21:30:16Z) - CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes [31.783117836434403]
CD-NGPは、メモリオーバーヘッドを減らし、スケーラビリティを向上させる継続的学習フレームワークである。
トレーニングメモリ使用量は14GBに大幅に削減され、DyNeRFのストリーミング帯域幅はわずか0.4MBである。
論文 参考訳(メタデータ) (2024-09-08T17:35:48Z) - Gaussian Splatting Lucas-Kanade [0.11249583407496218]
本稿では,古典ルーカスカナーデ法を動的ガウススプラッティングに適応させる新しい解析手法を提案する。
前方ワープフィールドネットワークの固有特性を活用することにより,時間積分により正確なシーンフロー計算を容易にする解析速度場を導出する。
提案手法は,合成シーンと実世界のシーンの両方で実証されたような,最小限のカメラモーションで高ダイナミックなシーンを再構築する上で優れている。
論文 参考訳(メタデータ) (2024-07-16T01:50:43Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Unbiased Scene Graph Generation in Videos [36.889659781604564]
TEMPURA: temporal consistency and Memory-guided UnceRtainty Attenuation for unbiased dynamic SGG。
TEMPURAはトランスフォーマーシーケンスモデリングによってオブジェクトレベルの時間的整合性を採用し、バイアスのない関係表現を合成することを学ぶ。
提案手法は,既存手法に比べて大きな性能向上(場合によっては最大10%)を達成している。
論文 参考訳(メタデータ) (2023-04-03T06:10:06Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。