論文の概要: SkyDiffusion: Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm
- arxiv url: http://arxiv.org/abs/2408.01812v2
- Date: Sat, 17 Aug 2024 08:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 01:39:16.037849
- Title: SkyDiffusion: Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm
- Title(参考訳): SkyDiffusion: 拡散モデルとBEVパラダイムを用いたStreet-to-Satellite画像合成
- Authors: Junyan Ye, Jun He, Weijia Li, Zhutao Lv, Jinhua Yu, Haote Yang, Conghui He,
- Abstract要約: 本研究では,ストリートビュー画像から衛星画像を合成する新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
SkyDiffusionは郊外(CVUSAとCVACT)と都市横断的なデータセットの両方において最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 12.818880200888504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Street-to-satellite image synthesis focuses on generating realistic satellite images from corresponding ground street-view images while maintaining a consistent content layout, similar to looking down from the sky. The significant differences in perspectives create a substantial domain gap between the views, making this cross-view generation task particularly challenging. In this paper, we introduce SkyDiffusion, a novel cross-view generation method for synthesizing satellite images from street-view images, leveraging diffusion models and Bird's Eye View (BEV) paradigm. First, we design a Curved-BEV method to transform street-view images to the satellite view, reformulating the challenging cross-domain image synthesis task into a conditional generation problem. Curved-BEV also includes a "Multi-to-One" mapping strategy for leveraging multiple street-view images within the same satellite coverage area, effectively solving the occlusion issues in dense urban scenes. Next, we design a BEV-controlled diffusion model to generate satellite images consistent with the street-view content, which also incorporates a light manipulation module to make the lighting conditions of the synthesized satellite images more flexible. Experimental results demonstrate that SkyDiffusion outperforms state-of-the-art methods on both suburban (CVUSA & CVACT) and urban (VIGOR-Chicago) cross-view datasets, with an average SSIM increase of 13.96% and a FID reduction of 20.54%, achieving realistic and content-consistent satellite image generation. The code and models of this work will be released at https://opendatalab.github.io/skydiffusion
- Abstract(参考訳): ストリート・トゥ・サテライト画像合成は、空から見下ろすような一貫したコンテンツレイアウトを維持しながら、対応する地上ストリートビュー画像から現実的な衛星画像を生成することに焦点を当てている。
視点の重大な違いは、ビュー間に大きなドメインギャップを生じさせ、このクロスビュー生成タスクを特に困難にします。
本稿では,道路画像から衛星画像を合成し,拡散モデルとBird's Eye View(BEV)パラダイムを活用する,新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
まず,街路ビュー画像を衛星ビューに変換するCurved-BEV法を設計し,課題であるクロスドメイン画像合成タスクを条件付き生成問題に再構成する。
また、Curved-BEVは「Multi-to-One」マッピング戦略も備えており、複数のストリートビュー画像を同じ衛星範囲内で活用し、密集した都市のシーンにおける閉塞問題を効果的に解決している。
次に、BEV制御拡散モデルを用いて、街路ビューの内容と整合した衛星画像を生成する。
実験の結果、SkyDiffusionは郊外(CVUSA & CVACT)と都市(VIGOR-Chicago)のクロスビューデータセットの両方において、平均SSIMが13.96%増加し、FIDが20.54%減少し、現実的でコンテンツに一貫性のある衛星画像生成を実現している。
この作業のコードとモデルはhttps://opendatalab.github.io/skydiffusionで公開される。
関連論文リスト
- From Bird's-Eye to Street View: Crafting Diverse and Condition-Aligned Images with Latent Diffusion Model [16.716345249091408]
我々は,バード・アイビューの生成を探索し,BEVマップを対応する多視点ストリートイメージに変換する。
提案手法は,ニューラルビュー変換とストリート画像生成の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-09-02T07:47:16Z) - CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis [54.852701978617056]
CrossViewDiffは、衛星間ビュー合成のためのクロスビュー拡散モデルである。
ビュー間の大きな相違による課題に対処するため、衛星シーン構造推定とクロスプラットフォームテクスチャマッピングモジュールを設計する。
合成結果のより包括的な評価を実現するため,GPTに基づくスコアリング手法を設計する。
論文 参考訳(メタデータ) (2024-08-27T03:41:44Z) - SG-BEV: Satellite-Guided BEV Fusion for Cross-View Semantic Segmentation [12.692812966686066]
本稿では,衛星誘導型BEV融合によるクロスビューセマンティックセマンティックセグメンテーションのための新しいアプローチであるSG-BEVを紹介する。
本手法は,現状の衛星ベースおよびクロスビュー法と比較して,mIOUの10.13%,5.21%の増加を実現している。
論文 参考訳(メタデータ) (2024-04-03T10:57:47Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Urban Radiance Fields [77.43604458481637]
本研究では,都市屋外環境における世界地図作成によく利用されるスキャニングプラットフォームによって収集されたデータから3次元再構成と新しいビュー合成を行う。
提案手法は、制御された環境下での小さなシーンのための現実的な新しい画像の合成を実証したニューラルラジアンス場を拡張している。
これら3つのエクステンションはそれぞれ、ストリートビューデータの実験において、大幅なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2021-11-29T15:58:16Z) - Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery [80.6282101835164]
オーバヘッド衛星画像から新しいストリートビューパノラマを合成するための新しいアプローチを提案する。
本手法は,googleの全方位ストリートビュー型パノラマを,衛星パッチの中央と同じ地理的位置から取得したかのように生成する。
論文 参考訳(メタデータ) (2021-03-02T10:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。