論文の概要: Leveraging BEV Paradigm for Ground-to-Aerial Image Synthesis
- arxiv url: http://arxiv.org/abs/2408.01812v4
- Date: Wed, 19 Mar 2025 05:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 17:45:40.639399
- Title: Leveraging BEV Paradigm for Ground-to-Aerial Image Synthesis
- Title(参考訳): 地対空画像合成のためのBEVパラダイムの活用
- Authors: Junyan Ye, Jun He, Weijia Li, Zhutao Lv, Yi Lin, Jinhua Yu, Haote Yang, Conghui He,
- Abstract要約: 地上から地上への画像合成は、対応する地上の景観画像から現実的な空中画像を生成することに焦点を当てている。
本研究では,ストリートビュー画像から航空画像を合成する新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
地上から地上までの多様な画像合成用途のために設計された新しいデータセット「Ground2Aerial-3」を紹介した。
- 参考スコア(独自算出の注目度): 14.492759165786364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ground-to-aerial image synthesis focuses on generating realistic aerial images from corresponding ground street view images while maintaining consistent content layout, simulating a top-down view. The significant viewpoint difference leads to domain gaps between views, and dense urban scenes limit the visible range of street views, making this cross-view generation task particularly challenging. In this paper, we introduce SkyDiffusion, a novel cross-view generation method for synthesizing aerial images from street view images, utilizing a diffusion model and the Bird's-Eye View (BEV) paradigm. The Curved-BEV method in SkyDiffusion converts street-view images into a BEV perspective, effectively bridging the domain gap, and employs a "multi-to-one" mapping strategy to address occlusion issues in dense urban scenes. Next, SkyDiffusion designed a BEV-guided diffusion model to generate content-consistent and realistic aerial images. Additionally, we introduce a novel dataset, Ground2Aerial-3, designed for diverse ground-to-aerial image synthesis applications, including disaster scene aerial synthesis, low-altitude UAV image synthesis, and historical high-resolution satellite image synthesis tasks. Experimental results demonstrate that SkyDiffusion outperforms state-of-the-art methods on cross-view datasets across natural (CVUSA), suburban (CVACT), urban (VIGOR-Chicago), and various application scenarios (G2A-3), achieving realistic and content-consistent aerial image generation. The code, datasets and more information of this work can be found at https://opendatalab.github.io/skydiffusion/ .
- Abstract(参考訳): 地上から地上までの画像合成は、一貫したコンテンツレイアウトを維持しながら、対応する地上ビュー画像から現実的な空中画像を生成することに焦点を当て、トップダウンビューをシミュレートする。
重要な視点の違いは、ビュー間のドメインギャップを招き、密集した都市景観はストリートビューの可視範囲を制限し、このクロスビュー生成タスクを特に困難にしている。
本稿では,拡散モデルとBird's-Eye View(BEV)パラダイムを利用して,ストリートビュー画像から航空画像を合成する新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
SkyDiffusionのCurved-BEV法は、ストリートビュー画像をBEVの視点に変換し、ドメインギャップを効果的にブリッジし、密集した都市景観における閉塞問題に対処するために「複数対1」マッピング戦略を採用する。
次にSkyDiffusionは、コンテンツに一貫性のある現実的な空中画像を生成するために、BEV誘導拡散モデルを設計した。
さらに,災害現場の空中合成,低高度UAV画像合成,歴史的高解像度衛星画像合成タスクなど,地上・航空画像合成の多様な用途のために設計された新しいデータセット「Ground2Aerial-3」を紹介した。
実験の結果、SkyDiffusionは自然(CVUSA)、郊外(CVACT)、都市(VIGOR-Chicago)、および様々な応用シナリオ(G2A-3)にまたがるクロスビューデータセットにおける最先端の手法よりも優れており、現実的でコンテンツに一貫性のある空中画像生成を実現していることがわかった。
この作業のコード、データセット、さらに詳しい情報は、https://opendatalab.github.io/skydiffusion/ で見ることができる。
関連論文リスト
- AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis [57.249817395828174]
本研究では,3次元都市規模のメッシュからの擬似合成レンダリングと,実地レベルでのクラウドソース画像を組み合わせたスケーラブルなフレームワークを提案する。
擬似合成データは、幅広い空中視点をシミュレートする一方、実際のクラウドソース画像は、地上レベルの画像の視覚的忠実度を改善するのに役立つ。
このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、実世界のゼロショット地上作業において大幅な改善を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:57:05Z) - Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground Scenes [55.15494682493422]
本稿では,ガウシアン・スプレイティング技術に基づく新しい手法であるHorizon-GSを導入し,航空やストリートビューの統一的な再構築とレンダリングに挑戦する。
提案手法は,これらの視点と新たなトレーニング戦略を組み合わせることによる重要な課題に対処し,視点の相違を克服し,高忠実度シーンを生成する。
論文 参考訳(メタデータ) (2024-12-02T17:42:00Z) - From Bird's-Eye to Street View: Crafting Diverse and Condition-Aligned Images with Latent Diffusion Model [16.716345249091408]
我々は,バード・アイビューの生成を探索し,BEVマップを対応する多視点ストリートイメージに変換する。
提案手法は,ニューラルビュー変換とストリート画像生成の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-09-02T07:47:16Z) - CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis [54.852701978617056]
CrossViewDiffは、衛星間ビュー合成のためのクロスビュー拡散モデルである。
ビュー間の大きな相違による課題に対処するため、衛星シーン構造推定とクロスプラットフォームテクスチャマッピングモジュールを設計する。
合成結果のより包括的な評価を実現するため,GPTに基づくスコアリング手法を設計する。
論文 参考訳(メタデータ) (2024-08-27T03:41:44Z) - SG-BEV: Satellite-Guided BEV Fusion for Cross-View Semantic Segmentation [12.692812966686066]
本稿では,衛星誘導型BEV融合によるクロスビューセマンティックセマンティックセグメンテーションのための新しいアプローチであるSG-BEVを紹介する。
本手法は,現状の衛星ベースおよびクロスビュー法と比較して,mIOUの10.13%,5.21%の増加を実現している。
論文 参考訳(メタデータ) (2024-04-03T10:57:47Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View [67.8213192993001]
本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。
HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。
推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
論文 参考訳(メタデータ) (2023-11-27T01:41:25Z) - Aerial Diffusion: Text Guided Ground-to-Aerial View Translation from a
Single Image using Diffusion Models [72.76182801289497]
そこで本研究では,テキストガイダンスを用いて1つの地上画像から空中映像を生成する新しい手法であるAerial Diffusionを提案する。
地上ビューと空中ビューのドメインギャップに対応する2つの主な課題に対処する。
航空拡散(Aerial Diffusion)は、地上から航空への翻訳を教師なしで行う最初のアプローチである。
論文 参考訳(メタデータ) (2023-03-15T22:26:09Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Urban Radiance Fields [77.43604458481637]
本研究では,都市屋外環境における世界地図作成によく利用されるスキャニングプラットフォームによって収集されたデータから3次元再構成と新しいビュー合成を行う。
提案手法は、制御された環境下での小さなシーンのための現実的な新しい画像の合成を実証したニューラルラジアンス場を拡張している。
これら3つのエクステンションはそれぞれ、ストリートビューデータの実験において、大幅なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2021-11-29T15:58:16Z) - Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery [80.6282101835164]
オーバヘッド衛星画像から新しいストリートビューパノラマを合成するための新しいアプローチを提案する。
本手法は,googleの全方位ストリートビュー型パノラマを,衛星パッチの中央と同じ地理的位置から取得したかのように生成する。
論文 参考訳(メタデータ) (2021-03-02T10:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。