論文の概要: CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis
- arxiv url: http://arxiv.org/abs/2408.14765v1
- Date: Tue, 27 Aug 2024 03:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 15:04:48.462688
- Title: CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis
- Title(参考訳): CrossViewDiff:衛星・ストリートビュー合成のためのクロスビュー拡散モデル
- Authors: Weijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He,
- Abstract要約: CrossViewDiffは、衛星間ビュー合成のためのクロスビュー拡散モデルである。
ビュー間の大きな相違による課題に対処するため、衛星シーン構造推定とクロスプラットフォームテクスチャマッピングモジュールを設計する。
合成結果のより包括的な評価を実現するため,GPTに基づくスコアリング手法を設計する。
- 参考スコア(独自算出の注目度): 54.852701978617056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Satellite-to-street view synthesis aims at generating a realistic street-view image from its corresponding satellite-view image. Although stable diffusion models have exhibit remarkable performance in a variety of image generation applications, their reliance on similar-view inputs to control the generated structure or texture restricts their application to the challenging cross-view synthesis task. In this work, we propose CrossViewDiff, a cross-view diffusion model for satellite-to-street view synthesis. To address the challenges posed by the large discrepancy across views, we design the satellite scene structure estimation and cross-view texture mapping modules to construct the structural and textural controls for street-view image synthesis. We further design a cross-view control guided denoising process that incorporates the above controls via an enhanced cross-view attention module. To achieve a more comprehensive evaluation of the synthesis results, we additionally design a GPT-based scoring method as a supplement to standard evaluation metrics. We also explore the effect of different data sources (e.g., text, maps, building heights, and multi-temporal satellite imagery) on this task. Results on three public cross-view datasets show that CrossViewDiff outperforms current state-of-the-art on both standard and GPT-based evaluation metrics, generating high-quality street-view panoramas with more realistic structures and textures across rural, suburban, and urban scenes. The code and models of this work will be released at https://opendatalab.github.io/CrossViewDiff/.
- Abstract(参考訳): サテライト・ツー・ストリート・ビュー・シンセサイザーは、対応するサテライト・ビュー・イメージからリアルなストリート・ビュー・イメージを生成することを目的としている。
安定拡散モデルは様々な画像生成アプリケーションにおいて顕著な性能を示しているが、生成した構造やテクスチャを制御するために類似ビュー入力に依存しているため、難易度の高いクロスビュー合成タスクに制限される。
本研究では,衛星間ビュー合成のためのクロスビュー拡散モデルであるCrossViewDiffを提案する。
ビュー間の大きな相違によって引き起こされる課題に対処するため,衛星シーン構造推定とクロスビューテクスチャマッピングモジュールを設計し,ストリートビュー画像合成のための構造的およびテクスチャ的制御を構築する。
さらに、拡張されたクロスビューアテンションモジュールを介して上記制御を組み込んだ、クロスビュー制御ガイド付き復調処理を設計する。
合成結果のより包括的な評価を実現するため,標準評価指標の補足として,GPTに基づくスコアリング手法を設計する。
また,この課題に対する異なるデータソース(テキスト,マップ,ビルディング高さ,マルチ時間衛星画像など)の影響についても検討する。
3つのパブリックなクロスビューデータセットの結果から、CrossViewDiffは、標準およびGPTベースの評価指標で現在の最先端を上回り、農村部、郊外部、都市部におけるより現実的な構造とテクスチャを備えた高品質なストリートビューパノラマを生成している。
この作業のコードとモデルはhttps://opendatalab.github.io/CrossViewDiff/.comで公開される。
関連論文リスト
- SkyDiffusion: Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm [12.818880200888504]
本研究では,ストリートビュー画像から衛星画像を合成する新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
SkyDiffusionは郊外(CVUSAとCVACT)と都市横断的なデータセットの両方において最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-03T15:43:56Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - A Graph-Matching Approach for Cross-view Registration of Over-view 2 and
Street-view based Point Clouds [4.742825811314168]
本稿では,ビュー不変の特徴として意味的セグメント化されたオブジェクト境界を利用する,クロスビューデータの完全自動ジオレジストリ手法を提案する。
提案手法は,衛星とストリートビューに基づく点群から検出されたグラフのノードとして建物セグメントをモデル化する。
一致したノードは、正確な登録を可能にするためにさらに最適化され、2D29 3Dのコンプリートを維持するために、ストリートビューイメージ上の束調整が制限される。
論文 参考訳(メタデータ) (2022-02-14T16:43:28Z) - Coming Down to Earth: Satellite-to-Street View Synthesis for
Geo-Localization [9.333087475006003]
クロスビュー画像に基づくジオローカライズは,この2つの領域間の視野と外観の違いから,非常に困難である。
衛星入力からリアルなストリートビューを合成することで,この不一致を明示的に解決できることを示す。
本稿では,画像合成と検索を共同で行うマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-11T17:40:59Z) - Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery [80.6282101835164]
オーバヘッド衛星画像から新しいストリートビューパノラマを合成するための新しいアプローチを提案する。
本手法は,googleの全方位ストリートビュー型パノラマを,衛星パッチの中央と同じ地理的位置から取得したかのように生成する。
論文 参考訳(メタデータ) (2021-03-02T10:27:05Z) - Street-view Panoramic Video Synthesis from a Single Satellite Image [92.26826861266784]
時間的および幾何学的に一貫したストリートビューパノラマビデオの両方を合成する新しい方法を提示する。
既存のクロスビュー合成アプローチは画像に重点を置いているが、そのような場合のビデオ合成はまだ十分な注目を集めていない。
論文 参考訳(メタデータ) (2020-12-11T20:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。