Fugu-MT 論文翻訳(概要): SatDreamer360: Geometry Consistent Street-View Video Generation from Satellite Imagery

論文の概要: SatDreamer360: Geometry Consistent Street-View Video Generation from Satellite Imagery

arxiv url: http://arxiv.org/abs/2506.00600v1
Date: Sat, 31 May 2025 15:15:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:33.285196
Title: SatDreamer360: Geometry Consistent Street-View Video Generation from Satellite Imagery
Title（参考訳）: SatDreamer360:衛星画像からのストリートビュー映像の生成
Authors: Xianghui Ze, Beiyi Zhu, Zhenbo Song, Jianfeng Lu, Yujiao Shi,
Abstract要約: 衛星画像から幾何学的かつ時間的に一貫した地上映像を生成する新しいフレームワークであるSatDreamer360を提案する。実験により、SatDreamer360は様々な都市のシーンにおける忠実さ、コヒーレンス、幾何学的アライメントにおいて優れた性能を発揮することが示された。
参考スコア（独自算出の注目度）: 13.56099077492974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating continuous ground-level video from satellite imagery is a challenging task with significant potential for applications in simulation, autonomous navigation, and digital twin cities. Existing approaches primarily focus on synthesizing individual ground-view images, often relying on auxiliary inputs like height maps or handcrafted projections, and fall short in producing temporally consistent sequences. In this paper, we propose {SatDreamer360}, a novel framework that generates geometrically and temporally consistent ground-view video from a single satellite image and a predefined trajectory. To bridge the large viewpoint gap, we introduce a compact tri-plane representation that encodes scene geometry directly from the satellite image. A ray-based pixel attention mechanism retrieves view-dependent features from the tri-plane, enabling accurate cross-view correspondence without requiring additional geometric priors. To ensure multi-frame consistency, we propose an epipolar-constrained temporal attention module that aligns features across frames using the known relative poses along the trajectory. To support evaluation, we introduce {VIGOR++}, a large-scale dataset for cross-view video generation, with dense trajectory annotations and high-quality ground-view sequences. Extensive experiments demonstrate that SatDreamer360 achieves superior performance in fidelity, coherence, and geometric alignment across diverse urban scenes.
Abstract（参考訳）: 衛星画像から連続した地上レベルの映像を生成することは、シミュレーション、自律航法、デジタルツインシティーにおける大きな可能性を持つ課題である。既存のアプローチは主に個々の地上画像の合成に重点を置いており、しばしば高さマップや手作りプロジェクションのような補助的な入力に依存し、時間的に一貫したシーケンスを生成できない。本稿では,衛星画像と予め定義された軌道から幾何学的かつ時間的に一貫した地上映像を生成する新しいフレームワークである {SatDreamer360} を提案する。大きな視点ギャップを埋めるために、衛星画像から直接シーン形状を符号化するコンパクトな三面体表現を導入する。レイベースの画素アテンション機構は、トリプレーンからビュー依存の特徴を検索し、追加の幾何学的事前処理を必要とせずに正確なクロスビュー対応を可能にする。複数フレームの整合性を確保するために,軌道に沿った既知の相対的なポーズを用いて,フレーム間の特徴を整列するエピポーラ制約時間的アテンションモジュールを提案する。評価を支援するために,高密度な軌跡アノテーションと高品質な地上映像シーケンスを備えた,クロスビュービデオ生成のための大規模データセットである {VIGOR++} を紹介した。大規模な実験により、SatDreamer360は様々な都市のシーンにおける忠実さ、コヒーレンス、幾何学的アライメントにおいて優れた性能を発揮することが示された。

関連論文リスト

Cross-view Localization and Synthesis -- Datasets, Challenges and Opportunities [12.433321159554525]
クロスビューの局所化と合成は、クロスビューの視覚的理解における2つの基本的なタスクである。これらのタスクは、自律ナビゲーション、都市計画、拡張現実に広く応用されているため、注目を集めている。近年、大規模なデータセットと新しいアプローチが利用可能になったことにより、急速な進歩が見られた。
論文参考訳（メタデータ） (2025-10-26T16:09:53Z)
DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training [76.82789568988557]
DiT360は、パノラマ画像生成のための視点とパノラマデータを用いたハイブリッドトレーニングを行う、DiTベースのフレームワークである。提案手法は,11の定量的指標間で境界の整合性と画像の忠実度を向上する。
論文参考訳（メタデータ） (2025-10-13T17:59:15Z)
Satellite to GroundScape -- Large-scale Consistent Ground View Generation from Satellite Views [5.146618378243241]
本研究では,衛星ビューから生成された地上画像間の整合性を確保するために,新しいクロスビュー合成手法を提案する。本手法は, 固定潜時拡散モデルに基づいて, 衛星誘導復調法と衛星時変復調法という2つの条件付きモジュールを導入する。大規模な衛星地上データセットを10万対以上の視点で提供し,広範囲な地上環境や映像生成を容易にする。
論文参考訳（メタデータ） (2025-04-22T10:58:42Z)
Geometry-guided Cross-view Diffusion for One-to-many Cross-view Image Synthesis [48.945931374180795]
本稿では,対応する衛星画像から可視な地上画像を生成することを目的とした,クロスビュー合成のための新しいアプローチを提案する。これらの課題を衛星間(Sat2Grd)と地上間(Grd2Sat)合成と呼ぶ。
論文参考訳（メタデータ） (2024-12-04T13:47:51Z)
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis [54.852701978617056]
CrossViewDiffは、衛星間ビュー合成のためのクロスビュー拡散モデルである。ビュー間の大きな相違による課題に対処するため、衛星シーン構造推定とクロスプラットフォームテクスチャマッピングモジュールを設計する。合成結果のより包括的な評価を実現するため,GPTに基づくスコアリング手法を設計する。
論文参考訳（メタデータ） (2024-08-27T03:41:44Z)
360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文参考訳（メタデータ） (2024-06-27T05:26:38Z)
A Semantic Segmentation-guided Approach for Ground-to-Aerial Image Matching [30.324252605889356]
本研究は,GPSデータを使わずに,問合せ地上画像と対応する衛星画像とをマッチングする問題に対処する。これは地上画像と衛星画像の特徴を比較することで行われ、3ストリームのシームズ様のネットワークを通じて、対応する衛星のセグメンテーションマスクを革新的に活用する。この新しさは、衛星画像とセマンティックセグメンテーションマスクの融合にあり、モデルが有用な特徴を抽出し、画像の重要な部分に集中できるようにすることを目的としている。
論文参考訳（メタデータ） (2024-04-17T12:13:18Z)
Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。 2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文参考訳（メタデータ） (2024-01-19T16:15:37Z)
CVLNet: Cross-View Semantic Correspondence Learning for Video-based Camera Localization [89.69214577915959]
本稿では,クロスビューカメラのローカライゼーション問題に対処する。本稿では、類似性マッチングの前に、問合せカメラの衛星画像に対する相対変位を推定する。実験は、単一の画像に基づく位置決めよりもビデオベースの位置決めの有効性を実証した。
論文参考訳（メタデータ） (2022-08-07T07:35:17Z)
Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文参考訳（メタデータ） (2022-07-27T13:16:39Z)
Geo-Localization via Ground-to-Satellite Cross-View Image Retrieval [25.93015219830576]
ランドマークの地平面画像から,衛星視画像の検索により地理空間のクロスビュー化を図っている。我々は、地上視と衛星視の橋渡しとして、ドローン視情報を利用する。
論文参考訳（メタデータ） (2022-05-22T17:35:13Z)
3D Reconstruction through Fusion of Cross-View Images [4.644618399001]
マルチステレオおよびステレオ画像からの3Dリカバリは、コンピュータビジョン、リモートセンシング、ジオマティクスにおける多くの応用に役立つ。地上画像と衛星画像をフル3Dリカバリするための枠組みを紹介する。提案手法は,車両に搭載されたGo-proカメラで取得した12の衛星画像と150kのビデオフレームからなるデータセット上で実証する。
論文参考訳（メタデータ） (2021-06-27T18:31:08Z)
DeepMultiCap: Performance Capture of Multiple Characters Using Sparse Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文参考訳（メタデータ） (2021-05-01T14:32:13Z)
Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery [80.6282101835164]
オーバヘッド衛星画像から新しいストリートビューパノラマを合成するための新しいアプローチを提案する。本手法は,googleの全方位ストリートビュー型パノラマを,衛星パッチの中央と同じ地理的位置から取得したかのように生成する。
論文参考訳（メタデータ） (2021-03-02T10:27:05Z)
Street-view Panoramic Video Synthesis from a Single Satellite Image [92.26826861266784]
時間的および幾何学的に一貫したストリートビューパノラマビデオの両方を合成する新しい方法を提示する。既存のクロスビュー合成アプローチは画像に重点を置いているが、そのような場合のビデオ合成はまだ十分な注目を集めていない。
論文参考訳（メタデータ） (2020-12-11T20:22:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。