論文の概要: UAV4D: Dynamic Neural Rendering of Human-Centric UAV Imagery using Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2506.05011v1
- Date: Thu, 05 Jun 2025 13:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.725258
- Title: UAV4D: Dynamic Neural Rendering of Human-Centric UAV Imagery using Gaussian Splatting
- Title(参考訳): UAV4D:Gaussian Splattingを用いた人中心UAV画像の動的ニューラルネットワークレンダリング
- Authors: Jaehoon Choi, Dongki Jung, Christopher Maxey, Yonghan Lee, Sungmin Eum, Dinesh Manocha, Heesung Kwon,
- Abstract要約: UAV4Dは,UAVが捉えたダイナミックな現実世界のシーンに対して,フォトリアリスティックなレンダリングを可能にするフレームワークである。
我々は3次元基礎モデルと人間のメッシュ再構築モデルを組み合わせて、シーン背景と人間の両方を再構築する。
以上の結果から,新しい視点合成法に対するアプローチの利点が示され,1.5dBPSNRの改善と視覚的シャープネスの向上が達成された。
- 参考スコア(独自算出の注目度): 54.883935964137706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in dynamic neural rendering, existing methods fail to address the unique challenges posed by UAV-captured scenarios, particularly those involving monocular camera setups, top-down perspective, and multiple small, moving humans, which are not adequately represented in existing datasets. In this work, we introduce UAV4D, a framework for enabling photorealistic rendering for dynamic real-world scenes captured by UAVs. Specifically, we address the challenge of reconstructing dynamic scenes with multiple moving pedestrians from monocular video data without the need for additional sensors. We use a combination of a 3D foundation model and a human mesh reconstruction model to reconstruct both the scene background and humans. We propose a novel approach to resolve the scene scale ambiguity and place both humans and the scene in world coordinates by identifying human-scene contact points. Additionally, we exploit the SMPL model and background mesh to initialize Gaussian splats, enabling holistic scene rendering. We evaluated our method on three complex UAV-captured datasets: VisDrone, Manipal-UAV, and Okutama-Action, each with distinct characteristics and 10~50 humans. Our results demonstrate the benefits of our approach over existing methods in novel view synthesis, achieving a 1.5 dB PSNR improvement and superior visual sharpness.
- Abstract(参考訳): ダイナミックなニューラルレンダリングの大幅な進歩にもかかわらず、既存の手法では、UAVがキャプチャしたシナリオ、特にモノクロカメラのセットアップ、トップダウンの視点、既存のデータセットで適切に表現されていない複数の小型で動く人間を含む、ユニークな課題に対処できない。
本研究では,UAVが捉えたダイナミックなリアルなシーンのリアルなレンダリングを実現するためのフレームワークであるUAV4Dを紹介する。
具体的には,センサの追加を必要とせず,複数の移動歩行者をモノクロ映像データから再構築するという課題に対処する。
我々は3次元基礎モデルと人間のメッシュ再構築モデルを組み合わせて、シーン背景と人間の両方を再構築する。
本研究では,世界座標に人間とシーンの両方を配置し,シーンスケールのあいまいさを解消する新たな手法を提案する。
さらに,SMPLモデルと背景メッシュを利用してガウススプレートを初期化し,全体像のレンダリングを可能にする。
VisDrone, Manipal-UAV, Okutama-Actionの3種類の複雑なUAVキャプチャー・データセットについて, それぞれ異なる特徴と10~50人の人間について検討した。
以上の結果から,新しい視点合成法に対するアプローチの利点が示され,1.5dBPSNRの改善と視覚的シャープネスの向上が達成された。
関連論文リスト
- UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - WonderHuman: Hallucinating Unseen Parts in Dynamic 3D Human Reconstruction [51.22641018932625]
我々はWonderHumanをモノクラービデオから再構成し、高忠実なノベルビューの合成を行う。
提案手法は,与えられたモノクロ映像からフォトリアリスティックなレンダリングを生成する場合のSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-02-03T04:43:41Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via
Self-supervised Scene Decomposition [40.46674919612935]
Vid2Avatarは、モノクラー・イン・ザ・ワイルドビデオから人間のアバターを学習する手法である。
提案手法は,大規模な人間のスキャンデータから抽出した基礎的監督や先行データを必要としない。
シーンの人間と背景の両方を共同でモデル化することで、シーンの分解と表面の再構築を3Dで直接行う。
論文 参考訳(メタデータ) (2023-02-22T18:59:17Z) - DronePose: Photorealistic UAV-Assistant Dataset Synthesis for 3D Pose
Estimation via a Smooth Silhouette Loss [27.58747838557417]
UAVアシスタントの3Dローカライゼーションは,ユーザとUAV間の空間情報の交換を容易にする重要なタスクである。
我々はデータ合成パイプラインを設計し、エキソセントリックなユーザビューとエゴセントリックなUAVビューの両方を含む現実的なマルチモーダルデータセットを作成する。
次に,フォトリアリスティックな入力と合成された入力を併用して,単発単眼ポーズ推定モデルを訓練する。
論文 参考訳(メタデータ) (2020-08-20T07:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。