論文の概要: SkyDiffusion: Ground-to-Aerial Image Synthesis with Diffusion Models and BEV Paradigm
- arxiv url: http://arxiv.org/abs/2408.01812v3
- Date: Thu, 19 Dec 2024 11:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:28.372164
- Title: SkyDiffusion: Ground-to-Aerial Image Synthesis with Diffusion Models and BEV Paradigm
- Title(参考訳): SkyDiffusion: 拡散モデルとBEVパラダイムを用いた地上-空中画像合成
- Authors: Junyan Ye, Jun He, Weijia Li, Zhutao Lv, Yi Lin, Jinhua Yu, Haote Yang, Conghui He,
- Abstract要約: 地上から地上への画像合成は、対応する地上の景観画像から現実的な空中画像を生成することに焦点を当てている。
本研究では,ストリートビュー画像から航空画像を合成する新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
地上から地上までの多様な画像合成用途のために設計された新しいデータセット「Ground2Aerial-3」を紹介した。
- 参考スコア(独自算出の注目度): 14.492759165786364
- License:
- Abstract: Ground-to-aerial image synthesis focuses on generating realistic aerial images from corresponding ground street view images while maintaining consistent content layout, simulating a top-down view. The significant viewpoint difference leads to domain gaps between views, and dense urban scenes limit the visible range of street views, making this cross-view generation task particularly challenging. In this paper, we introduce SkyDiffusion, a novel cross-view generation method for synthesizing aerial images from street view images, utilizing a diffusion model and the Bird's-Eye View (BEV) paradigm. The Curved-BEV method in SkyDiffusion converts street-view images into a BEV perspective, effectively bridging the domain gap, and employs a "multi-to-one" mapping strategy to address occlusion issues in dense urban scenes. Next, SkyDiffusion designed a BEV-guided diffusion model to generate content-consistent and realistic aerial images. Additionally, we introduce a novel dataset, Ground2Aerial-3, designed for diverse ground-to-aerial image synthesis applications, including disaster scene aerial synthesis, historical high-resolution satellite image synthesis, and low-altitude UAV image synthesis tasks. Experimental results demonstrate that SkyDiffusion outperforms state-of-the-art methods on cross-view datasets across natural (CVUSA), suburban (CVACT), urban (VIGOR-Chicago), and various application scenarios (G2A-3), achieving realistic and content-consistent aerial image generation. More result and dataset information can be found at https://opendatalab.github.io/skydiffusion/ .
- Abstract(参考訳): 地上から地上までの画像合成は、一貫したコンテンツレイアウトを維持しながら、対応する地上ビュー画像から現実的な空中画像を生成することに焦点を当て、トップダウンビューをシミュレートする。
重要な視点の違いは、ビュー間のドメインギャップを招き、密集した都市景観はストリートビューの可視範囲を制限し、このクロスビュー生成タスクを特に困難にしている。
本稿では,拡散モデルとBird's-Eye View(BEV)パラダイムを利用して,ストリートビュー画像から航空画像を合成する新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
SkyDiffusionのCurved-BEV法は、ストリートビュー画像をBEVの視点に変換し、ドメインギャップを効果的にブリッジし、密集した都市景観における閉塞問題に対処するために「複数対1」マッピング戦略を採用する。
次にSkyDiffusionは、コンテンツに一貫性のある現実的な空中画像を生成するために、BEV誘導拡散モデルを設計した。
さらに,災害現場の空中合成,歴史的高解像度衛星画像合成,低高度UAV画像合成タスクなど,地上・航空画像合成の多様な用途のために設計された新しいデータセットであるGround2Aerial-3を導入する。
実験の結果、SkyDiffusionは自然(CVUSA)、郊外(CVACT)、都市(VIGOR-Chicago)、および様々な応用シナリオ(G2A-3)にまたがるクロスビューデータセットにおける最先端の手法よりも優れており、現実的でコンテンツに一貫性のある空中画像生成を実現していることがわかった。
さらなる結果とデータセット情報は https://opendatalab.github.io/skydiffusion/ で確認できる。
関連論文リスト
- Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground Scenes [55.15494682493422]
本稿では,ガウシアン・スプレイティング技術に基づく新しい手法であるHorizon-GSを導入し,航空やストリートビューの統一的な再構築とレンダリングに挑戦する。
提案手法は,これらの視点と新たなトレーニング戦略を組み合わせることによる重要な課題に対処し,視点の相違を克服し,高忠実度シーンを生成する。
論文 参考訳(メタデータ) (2024-12-02T17:42:00Z) - From Bird's-Eye to Street View: Crafting Diverse and Condition-Aligned Images with Latent Diffusion Model [16.716345249091408]
我々は,バード・アイビューの生成を探索し,BEVマップを対応する多視点ストリートイメージに変換する。
提案手法は,ニューラルビュー変換とストリート画像生成の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-09-02T07:47:16Z) - CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis [54.852701978617056]
CrossViewDiffは、衛星間ビュー合成のためのクロスビュー拡散モデルである。
ビュー間の大きな相違による課題に対処するため、衛星シーン構造推定とクロスプラットフォームテクスチャマッピングモジュールを設計する。
合成結果のより包括的な評価を実現するため,GPTに基づくスコアリング手法を設計する。
論文 参考訳(メタデータ) (2024-08-27T03:41:44Z) - Cross-View Meets Diffusion: Aerial Image Synthesis with Geometry and Text Guidance [12.723045383279995]
本稿では、地上画像から現実的な空中画像を生成することのできる、新しい幾何学保存地上空間モデル(G2A)を提案する。
モデルをトレーニングするために、新しいマルチモーダル・クロスビューデータセット、すなわちVIGORv2を提案する。
また、クロスビューなジオローカライズのためのデータ拡張と、スケッチベースの領域探索という2つのアプリケーションを提案する。
論文 参考訳(メタデータ) (2024-08-08T05:17:27Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - Aerial Diffusion: Text Guided Ground-to-Aerial View Translation from a
Single Image using Diffusion Models [72.76182801289497]
そこで本研究では,テキストガイダンスを用いて1つの地上画像から空中映像を生成する新しい手法であるAerial Diffusionを提案する。
地上ビューと空中ビューのドメインギャップに対応する2つの主な課題に対処する。
航空拡散(Aerial Diffusion)は、地上から航空への翻訳を教師なしで行う最初のアプローチである。
論文 参考訳(メタデータ) (2023-03-15T22:26:09Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Urban Radiance Fields [77.43604458481637]
本研究では,都市屋外環境における世界地図作成によく利用されるスキャニングプラットフォームによって収集されたデータから3次元再構成と新しいビュー合成を行う。
提案手法は、制御された環境下での小さなシーンのための現実的な新しい画像の合成を実証したニューラルラジアンス場を拡張している。
これら3つのエクステンションはそれぞれ、ストリートビューデータの実験において、大幅なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2021-11-29T15:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。