論文の概要: Feed-Forward Gaussian Splatting from Sparse Aerial Views
- arxiv url: http://arxiv.org/abs/2605.19949v1
- Date: Tue, 19 May 2026 15:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.460226
- Title: Feed-Forward Gaussian Splatting from Sparse Aerial Views
- Title(参考訳): スパース航空から見たフィードフォワードガウススプラッティング
- Authors: Dongli Wu, Zhuoxiao Li, Tongyan Hua, Yinrui Ren, Xiaobao Wei, Rongjun Qin, Wufan Zhao,
- Abstract要約: 本稿では,空域の少ない都市景観を再現する観測基盤構築フレームワークであるAnyCityを提案する。
訓練中、高密度から高密度への蒸留は、高密度から高密度の再生から構造的キューを伝達する一方、航空保存ビデオ拡散は、きめ細かい都市外観のキューを提供する。
合成、航空ドメイン、UAVテクスチャ、現実世界のシーンの実験では、フィードフォワードベースラインよりも一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 14.51615314064375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing large-scale urban scenes from sparse aerial views is a crucial yet challenging task. Due to biased top-down and shallow-oblique camera poses, sparse aerial captures exhibit strong evidence imbalance: roofs and open regions are repeatedly observed, while facades, distant buildings, and occluded structures receive little multi-view support. Existing feed-forward 3D Gaussian Splatting methods directly regress a deterministic representation from sparse inputs, but this often leads to ghosting, melted facades, and stretched textures. Recent pseudo-view and video-based generative reconstruction methods use additional supervision or generative priors. However, they often lack a clear separation between observed geometry and prior-driven content, which can lead to plausible but inconsistent structures. We propose AnyCity, an observation-grounded generative reconstruction framework for sparse aerial urban scenes. AnyCity first predicts an observation-supported geometry latent to anchor reliable structures, and then uses scaffold-conditioned aerial completion tokens to predict a gated residual update for weakly constrained content before Gaussian decoding. During training, dense-to-sparse distillation transfers structural cues from dense-view reconstruction, while an aerial-adapted video diffusion prior provides fine-grained urban appearance cues through gated token conditioning. Observation-preserving objectives keep the refined representation consistent with input-supported geometry. At inference time, AnyCity reconstructs the final 3D Gaussian scene from sparse aerial views in a single feed-forward pass, achieving coherent urban novel-view synthesis with second-level inference. Experiments on synthetic, aerial-domain, UAV-textured, and real-world scenes show consistent improvements over feed-forward baselines.
- Abstract(参考訳): 空の景色から大規模な都市景観を再構築することは、非常に難しい課題です。
最上階と浅度斜めのカメラのポーズにより、屋根や空き地が繰り返し観測され、ファサード、遠方建物、閉鎖された建物はほとんどマルチビューの支持を受けていないという、粗い空中撮影は強い不均衡を示す。
既存のフィードフォワード3Dガウススメッティング法は、スパース入力から決定論的表現を直接取り除くが、これはしばしばゴースト、溶けたファサード、伸びたテクスチャに繋がる。
最近の擬似ビューおよびビデオに基づく生成的再構成手法は、追加の監督または生成的事前を使用する。
しかし、しばしば観察された幾何学と事前駆動された内容の間に明確な分離が欠如しており、これは可塑性だが矛盾する構造に繋がる可能性がある。
本稿では,空域の少ない都市景観を再現する観測基盤構築フレームワークであるAnyCityを提案する。
AnyCityはまず、信頼性のある構造を固定するために遅延した観測支援幾何学を予測し、続いて足場条件の空中補完トークンを使用して、ガウス復号前の弱い制約のあるコンテンツに対するゲートされた残差更新を予測する。
訓練中に高密度から高密度の蒸留が高密度の再生から構造的手がかりを伝達する一方、航空適応型ビデオ拡散は、ゲートトークンコンディショニングを通じて都市部の微細な外観的手がかりを提供する。
観測保存目的は、洗練された表現を入力支援幾何と一致させ続ける。
推定時に、AnyCityは、最後の3Dガウスのシーンを、1つのフィードフォワードパスでスパースな空中ビューから再構築し、第2レベルの推論によるコヒーレントな都市ノベルビュー合成を実現する。
合成、航空ドメイン、UAVテクスチャ、現実世界のシーンの実験では、フィードフォワードベースラインよりも一貫した改善が見られた。
関連論文リスト
- VidSplat: Gaussian Splatting Reconstruction with Geometry-Guided Video Diffusion Priors [79.88300861391114]
VidSplatは、トレーニング不要な生成的再構築フレームワークである。
生成と再構築の効果的な統合を可能にする2つの重要な課題に取り組む。
広範に使用されているベンチマーク実験は、スパースビューのシーン再構成における優れた性能を示している。
論文 参考訳(メタデータ) (2026-05-12T02:20:31Z) - NimbusGS: Unified 3D Scene Reconstruction under Hybrid Weather [83.14198482357388]
劣化したマルチビューインプットから高品質な3Dシーンを再構築するための統合フレームワークであるNimbusGSを提案する。
特定の気象タイプをターゲットにした既存の手法とは異なり、NimbusGSはより広範な一般化の課題に対処している。
論文 参考訳(メタデータ) (2026-03-28T10:46:29Z) - SF-Recon: Simplification-Free Lightweight Building Reconstruction via 3D Gaussian Splatting [15.642110732300191]
SF-Reconは、ポストホックメッシュを単純化することなく、多視点画像から軽量な建築表面を直接再構築する手法である。
提案したSFデータセットに基づいて,実験結果から,多視点画像から軽量建築モデルを直接再構築できることが実証された。
論文 参考訳(メタデータ) (2025-11-17T11:50:52Z) - G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior [53.762256749551284]
我々は,3次元シーン再構成を効果的に活用するための基本的な前提条件として,正確な幾何学を同定する。
生成パイプライン全体にこの幾何学的ガイダンスを導入し、可視性マスク推定を改善し、新しいビュー選択をガイドし、ビデオ拡散モデルに着色した場合の多視点一貫性を向上させる。
本手法は,屋内および屋外の両方のシナリオにおいて,高い一般化性を有するシングルビュー入力とアンポーズ映像を自然にサポートする。
論文 参考訳(メタデータ) (2025-10-14T03:06:28Z) - Visibility-Aware Densification for 3D Gaussian Splatting in Dynamic Urban Scenes [7.253732091582086]
VAD-GSは3DGSフレームワークで、挑戦的な都市景観の幾何学的復元に適したものだ。
本手法は, ボクセルに基づく可視性推論により, 信頼性の低い幾何学構造を同定する。
多様性を意識したビュー選択を通じて情報的支援ビューを選択し、パッチマッチングベースのステレオ再構築によって行方不明構造を復元する。
論文 参考訳(メタデータ) (2025-10-10T13:22:12Z) - OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。
提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文 参考訳(メタデータ) (2025-09-27T11:19:32Z) - MonoGSDF: Exploring Monocular Geometric Cues for Gaussian Splatting-Guided Implicit Surface Reconstruction [86.87464903285208]
高品質な再構成のための神経信号距離場(SDF)とプリミティブを結合する新しい手法であるMonoGSDFを紹介する。
任意のスケールのシーンを扱うために,ロバストな一般化のためのスケーリング戦略を提案する。
実世界のデータセットの実験は、効率を保ちながら、以前の方法よりも優れています。
論文 参考訳(メタデータ) (2024-11-25T20:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。