論文の概要: Top2Ground: A Height-Aware Dual Conditioning Diffusion Model for Robust Aerial-to-Ground View Generation
- arxiv url: http://arxiv.org/abs/2511.08258v1
- Date: Wed, 12 Nov 2025 01:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.722523
- Title: Top2Ground: A Height-Aware Dual Conditioning Diffusion Model for Robust Aerial-to-Ground View Generation
- Title(参考訳): Top2Ground:ロバスト・エアリアル・ツー・グラウンドビュー生成のための高認識デュアルコンディショニング拡散モデル
- Authors: Jae Joong Lee, Bedrich Benes,
- Abstract要約: Top2Groundは、空中入力画像から地上画像を直接生成する新しい拡散法である。
本研究では,VAE符号化空間特徴の共役表現にデノナイジング過程を規定する。
Top2Groundは、広視野と狭視野の両方を強力に扱うことができ、その強力な一般化能力を強調している。
- 参考スコア(独自算出の注目度): 14.377332218510743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating ground-level images from aerial views is a challenging task due to extreme viewpoint disparity, occlusions, and a limited field of view. We introduce Top2Ground, a novel diffusion-based method that directly generates photorealistic ground-view images from aerial input images without relying on intermediate representations such as depth maps or 3D voxels. Specifically, we condition the denoising process on a joint representation of VAE-encoded spatial features (derived from aerial RGB images and an estimated height map) and CLIP-based semantic embeddings. This design ensures the generation is both geometrically constrained by the scene's 3D structure and semantically consistent with its content. We evaluate Top2Ground on three diverse datasets: CVUSA, CVACT, and the Auto Arborist. Our approach shows 7.3% average improvement in SSIM across three benchmark datasets, showing Top2Ground can robustly handle both wide and narrow fields of view, highlighting its strong generalization capabilities.
- Abstract(参考訳): 地上の視界から地上レベルの画像を生成することは、極端な視点の相違、閉塞、限られた視野のために難しい課題である。
そこで本研究では,深度マップや3次元ボクセルなどの中間表現に頼ることなく,空中入力画像から光リアルな地上画像を直接生成する新しい拡散法であるTop2Groundを紹介する。
具体的には,VAE符号化された空間特徴(空中RGB画像と推定高さマップから)とCLIPに基づくセマンティック埋め込みの連成表現を規定する。
この設計により、生成はシーンの3D構造によって幾何学的に制約され、その内容と意味的に整合する。
CVUSA,CVACT,Auto Arboristの3つの多様なデータセットでTop2Groundを評価した。
我々のアプローチでは、3つのベンチマークデータセットでSSIMの平均的な改善が7.3%あり、Top2Groundは広視野と狭視野の両方を堅牢に処理でき、その強力な一般化能力を強調している。
関連論文リスト
- Splat-SAP: Feed-Forward Gaussian Splatting for Human-Centered Scene with Scale-Aware Point Map Reconstruction [39.835146541795986]
Splat-SAPは,両眼カメラからの映像を広帯域で表示するためのフィードフォワード方式である。
我々は、ピクセルワイズポイントマップの再構成を利用して、その独立ビューモデリングにおいて、大きな空間に頑健な幾何学を表現する。
論文 参考訳(メタデータ) (2025-11-27T18:58:54Z) - HD$^2$-SSC: High-Dimension High-Density Semantic Scene Completion for Autonomous Driving [52.959716866316604]
カメラベースの3Dセマンティックシーン補完(SSC)は、自動運転において重要な役割を果たす。
既存のSSC法は、固有の入出力次元ギャップとアノテーション-現実密度ギャップに悩まされている。
本稿では,画素セマンティクスを拡張した高次元高密度セマンティックシーンコンプリートフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T07:24:35Z) - Aerial-Ground Image Feature Matching via 3D Gaussian Splatting-based Intermediate View Rendering [7.454339483033969]
空中画像と地上画像の統合は、複雑なシーンの3Dモデリングにおいて有望な解決策である。
本研究の主な貢献は,空中画像と地上画像の特徴マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2025-09-24T08:50:13Z) - FG$^2$: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching [69.81167130510333]
本研究では, 地上画像の3次元自由度ポーズを, 周囲の空中画像から推定する, 微粒なクロスビューローカライゼーション手法を提案する。
地中画像から生成された点面と地中画像からサンプリングされた点面とを合わせ、ポーズを推定する。
従来の最先端技術と比較して,VIGORクロスエリアテストセットでは,平均局所化誤差を28%削減する。
論文 参考訳(メタデータ) (2025-03-24T14:34:20Z) - Leveraging BEV Paradigm for Ground-to-Aerial Image Synthesis [39.43518544801439]
地上から地上への画像合成は、対応する地上の景観画像から現実的な空中画像を生成することに焦点を当てている。
本研究では,ストリートビュー画像から航空画像を合成する新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
地上から地上までの多様な画像合成用途のために設計された新しいデータセット「Ground2Aerial-3」を紹介した。
論文 参考訳(メタデータ) (2024-08-03T15:43:56Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery [51.73680703579997]
航空画像から都市規模のセマンティックスとビルレベルのインスタンスセグメンテーションのためのニューラルラジアンスフィールド法を提案する。
都市空撮画像の物体は、建物、車、道路など、相当な大きさのバリエーションを示している。
我々は,様々な大きさのオブジェクトのセグメンテーションを強化する,スケール適応型セマンティックラベル融合戦略を導入する。
次に、2次元のインスタンスラベルにおける多視点不整合問題を緩和するために、新しいクロスビューインスタンスラベルグループ化戦略を導入する。
論文 参考訳(メタデータ) (2024-03-18T14:15:39Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。