論文の概要: Cross-View Meets Diffusion: Aerial Image Synthesis with Geometry and Text Guidance
- arxiv url: http://arxiv.org/abs/2408.04224v2
- Date: Tue, 20 Aug 2024 19:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 21:46:26.816538
- Title: Cross-View Meets Diffusion: Aerial Image Synthesis with Geometry and Text Guidance
- Title(参考訳): Cross-View Meets Diffusion: 幾何学とテキストガイダンスによる航空画像合成
- Authors: Ahmad Arrabi, Xiaohan Zhang, Waqas Sultani, Chen Chen, Safwan Wshah,
- Abstract要約: 本稿では、地上画像から現実的な空中画像を生成することのできる、新しい幾何学保存地上空間モデル(G2A)を提案する。
モデルをトレーニングするために、新しいマルチモーダル・クロスビューデータセット、すなわちVIGORv2を提案する。
また、クロスビューなジオローカライズのためのデータ拡張と、スケッチベースの領域探索という2つのアプリケーションを提案する。
- 参考スコア(独自算出の注目度): 12.723045383279995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial imagery analysis is critical for many research fields. However, obtaining frequent high-quality aerial images is not always accessible due to its high effort and cost requirements. One solution is to use the Ground-to-Aerial (G2A) technique to synthesize aerial images from easily collectible ground images. However, G2A is rarely studied, because of its challenges, including but not limited to, the drastic view changes, occlusion, and range of visibility. In this paper, we present a novel Geometric Preserving Ground-to-Aerial (G2A) image synthesis (GPG2A) model that can generate realistic aerial images from ground images. GPG2A consists of two stages. The first stage predicts the Bird's Eye View (BEV) segmentation (referred to as the BEV layout map) from the ground image. The second stage synthesizes the aerial image from the predicted BEV layout map and text descriptions of the ground image. To train our model, we present a new multi-modal cross-view dataset, namely VIGORv2 which is built upon VIGOR with newly collected aerial images, maps, and text descriptions. Our extensive experiments illustrate that GPG2A synthesizes better geometry-preserved aerial images than existing models. We also present two applications, data augmentation for cross-view geo-localization and sketch-based region search, to further verify the effectiveness of our GPG2A. The code and data will be publicly available.
- Abstract(参考訳): 航空画像解析は多くの研究分野において重要である。
しかし,高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細度に高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細
1つの解決策は、G2A技術を用いて、容易に収集可能な地上画像から空中画像を合成することである。
しかし、G2Aは大きな視界の変化、閉塞、視界の範囲など、その課題のために研究されることは稀である。
本稿では,地上画像から現実的な空中画像を生成することのできる,G2A(Geometric Preserving Ground-to-Aerial Image synthesis, GPG2A)モデルを提案する。
GPG2Aは2つの段階からなる。
第1段では、地上画像からバードアイビュー(BEV)セグメンテーション(BEVレイアウトマップ)を予測する。
第2段階は、予測されたBEVレイアウトマップと地上画像のテキスト記述から空中画像を合成する。
VIGORv2は,VIGOR上に構築され,新たに収集した空中画像,地図,テキスト記述が記述される。
GPG2Aは既存のモデルよりも優れたジオメトリー保存型空中画像を生成する。
また,GPG2Aの有効性を検証するため,クロスビュージオローカライズのためのデータ拡張とスケッチベース領域探索の2つのアプリケーションを提案する。
コードとデータは公開されます。
関連論文リスト
- Game4Loc: A UAV Geo-Localization Benchmark from Game Data [0.0]
クロスビューペアデータの部分的マッチングを含む,より実用的なUAV測位タスクを提案する。
実験により,UAV測地のためのデータとトレーニング手法の有効性が示された。
論文 参考訳(メタデータ) (2024-09-25T13:33:28Z) - Adapting Fine-Grained Cross-View Localization to Areas without Fine Ground Truth [56.565405280314884]
本稿では,GTの微細化を伴わないターゲット領域の画像のみを活用することにより,新たなターゲット領域におけるトレーニングモデルの性能向上に焦点をあてる。
本稿では,知識の自己蒸留に基づく弱教師付き学習手法を提案する。
提案手法は,最近の2つのベンチマークモデルを用いて検証した。
論文 参考訳(メタデータ) (2024-06-01T15:58:35Z) - Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery [51.73680703579997]
航空画像から都市規模のセマンティックスとビルレベルのインスタンスセグメンテーションのためのニューラルラジアンスフィールド法を提案する。
都市空撮画像の物体は、建物、車、道路など、相当な大きさのバリエーションを示している。
我々は,様々な大きさのオブジェクトのセグメンテーションを強化する,スケール適応型セマンティックラベル融合戦略を導入する。
次に、2次元のインスタンスラベルにおける多視点不整合問題を緩和するために、新しいクロスビューインスタンスラベルグループ化戦略を導入する。
論文 参考訳(メタデータ) (2024-03-18T14:15:39Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - Ground-to-Aerial Person Search: Benchmark Dataset and Approach [42.54151390290665]
我々はG2APSという,地上から航空への人物探索のための大規模データセットを構築した。
G2APSには、UAVと地上監視カメラの両方に2,644個のアイデンティティを持つ260,559個の注釈付きバウンディングボックスの31,770枚の画像が含まれている。
論文 参考訳(メタデータ) (2023-08-24T11:11:26Z) - GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data
Generation [91.01581867841894]
様々な幾何学的条件をテキストプロンプトに柔軟に翻訳できるシンプルなフレームワークであるGeoDiffusionを提案する。
われわれのGeoDiffusionは、バウンディングボックスだけでなく、自動運転シーンのカメラビューのような余分な幾何学的条件もエンコードできる。
論文 参考訳(メタデータ) (2023-06-07T17:17:58Z) - Aerial Diffusion: Text Guided Ground-to-Aerial View Translation from a
Single Image using Diffusion Models [72.76182801289497]
そこで本研究では,テキストガイダンスを用いて1つの地上画像から空中映像を生成する新しい手法であるAerial Diffusionを提案する。
地上ビューと空中ビューのドメインギャップに対応する2つの主な課題に対処する。
航空拡散(Aerial Diffusion)は、地上から航空への翻訳を教師なしで行う最初のアプローチである。
論文 参考訳(メタデータ) (2023-03-15T22:26:09Z) - Uncertainty-aware Vision-based Metric Cross-view Geolocalization [25.87104194833264]
地上画像と空中画像を用いて車両のポーズの確率分布を予測するエンド・ツー・エンドの微分モデルを提案する。
テストエリアからの地上データや空中データなしでも、最先端の技術を大きなマージンで改善する。
論文 参考訳(メタデータ) (2022-11-22T10:23:20Z) - Real-time Geo-localization Using Satellite Imagery and Topography for
Unmanned Aerial Vehicles [18.71806336611299]
本稿では,UAV上の軽量組込みシステムにおいて,シーン変更と実用性に信頼性のあるフレームワークを提案する。
このフレームワークは、オフラインデータベースの準備とオンライン推論の2つのステージで構成されている。
2つの異なるUAVプラットフォーム上でのイメージベースローカライゼーションのフィールド実験を行い、その結果を検証した。
論文 参考訳(メタデータ) (2021-08-07T01:47:19Z) - AiRound and CV-BrCT: Novel Multi-View Datasets for Scene Classification [2.931113769364182]
本稿では,thedatasetand CV-BrCTという2つの新しいデータセットを提案する。
1つ目は、世界中の様々な場所から抽出された視点の異なる、同じ地理的座標からの3つの画像を含む。
第2のデータセットには、ブラジル南東部から抽出された空中画像とストリートレベルの画像が含まれている。
論文 参考訳(メタデータ) (2020-08-03T18:55:46Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。