論文の概要: Satellite-to-Street: Synthesizing Post-Disaster Views from Satellite Imagery via Generative Vision Models
- arxiv url: http://arxiv.org/abs/2603.20697v1
- Date: Sat, 21 Mar 2026 07:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.04548
- Title: Satellite-to-Street: Synthesizing Post-Disaster Views from Satellite Imagery via Generative Vision Models
- Title(参考訳): サテライト・ツー・ストリート:生成視覚モデルによる衛星画像からのポスト・ディザスタ・ビューの合成
- Authors: Yifan Yang, Lei Zou, Wendy Jepson,
- Abstract要約: 衛星画像から災害後のストリートビューを合成するための2つの生成戦略を導入する。
提案した構造認識評価フレームワークを用いて,汎用ベースライン(Pix2Pix, ControlNet)に対してベンチマークを行った。
実験の結果、標準の ControlNet が最も高いセマンティック精度が 0.71 であるのに対し、VLM と MoE のモデルはテキストの可視性では優れるが、意味的明瞭性に苦慮している。
- 参考スコア(独自算出の注目度): 10.715667868976054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the immediate aftermath of natural disasters, rapid situational awareness is critical. Traditionally, satellite observations are widely used to estimate damage extent. However, they lack the ground-level perspective essential for characterizing specific structural failures and impacts. Meanwhile, ground-level data (e.g., street-view imagery) remains largely inaccessible during time-sensitive events. This study investigates Satellite-to-Street View Synthesis to bridge this data gap. We introduce two generative strategies to synthesize post-disaster street views from satellite imagery: a Vision-Language Model (VLM)-guided approach and a damage-sensitive Mixture-of-Experts (MoE) method. We benchmark these against general-purpose baselines (Pix2Pix, ControlNet) using a proposed Structure-Aware Evaluation Framework. This multi-tier protocol integrates (1) pixel-level quality assessment, (2) ResNet-based semantic consistency verification, and (3) a novel VLM-as-a-Judge for perceptual alignment. Experiments on 300 disaster scenarios reveal a critical realism--fidelity trade-off: while diffusion-based approaches (e.g., ControlNet) achieve high perceptual realism, they often hallucinate structural details. Quantitative results show that standard ControlNet achieves the highest semantic accuracy, 0.71, whereas VLM-enhanced and MoE models excel in textural plausibility but struggle with semantic clarity. This work establishes a baseline for trustworthy cross-view synthesis, emphasizing that visually realistic generations may still fail to preserve critical structural information required for reliable disaster assessment.
- Abstract(参考訳): 自然災害の直後には、急激な状況認識が重要である。
伝統的に、衛星観測は損傷の程度を推定するために広く用いられている。
しかし、それらは特定の構造的失敗と影響を特徴づけるのに不可欠な基盤レベルの視点を欠いている。
一方、地上レベルのデータ(例えばストリートビュー画像)は、時間に敏感なイベントの間、ほとんどアクセスできない。
本研究では,このデータギャップを橋渡しするための衛星・ストリートビュー合成について検討する。
本稿では,衛星画像から災害後のストリートビューを合成するための2つの生成戦略について紹介する。
提案した構造認識評価フレームワークを用いて,汎用ベースライン(Pix2Pix, ControlNet)に対してベンチマークを行った。
本プロトコルは,(1)画素レベルの品質評価,(2)ResNetに基づく意味的整合性検証,(3)知覚アライメントのための新しいVLM-as-a-Judgeを統合する。
拡散に基づくアプローチ(例えばコントロールネット)は高い知覚的リアリズムを実現する一方で、構造的詳細を幻覚させることが多い。
定量的な結果から,標準制御ネットは最大セマンティック精度0.71を達成しているのに対し,VLM強化モデルとMoEモデルはテキストの可読性では優れるが,意味的明瞭性に苦慮していることがわかった。
この研究は、信頼性の高いクロスビュー合成のベースラインを確立し、視覚的に現実的な世代は、信頼できる災害評価に必要な重要な構造情報の保存に失敗する可能性があることを強調した。
関連論文リスト
- Satellite to Street : Disaster Impact Estimator [0.12938914787881173]
本研究は, 衛星画像と衛星画像との協調処理により, 微粒な画素レベルの損傷マップを得るディープラーニングフレームワークを提案する。
このモデルは、局所的な構造的変化とより広い文脈的手がかりの両方をキャプチャするために、拡張された機能融合を備えた修正されたデュアルインプットU-Netアーキテクチャを使用する。
論文 参考訳(メタデータ) (2025-11-24T06:20:40Z) - RoSe: Robust Self-supervised Stereo Matching under Adverse Weather Conditions [58.37558408672509]
本稿では,ロバストな自己監督型環境対応学習と悪天候蒸留という2つの重要なステップからなる,堅牢な自己監督型訓練パラダイムを提案する。
提案手法の有効性と汎用性を実証し,既存の最先端の自己管理手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-23T15:41:40Z) - REOBench: Benchmarking Robustness of Earth Observation Foundation Models [48.24281482353377]
REOBenchは、地球観測基盤モデルの堅牢性を評価するための最初の総合的なベンチマークである。
マスク付き画像モデリング、コントラスト学習、視覚言語事前学習パラダイムを用いて訓練された幅広いモデルの体系的評価を行う。
その結果, 既存の地球観測基盤モデルでは, 入力汚損に晒された場合, 顕著な性能劣化がみられた。
論文 参考訳(メタデータ) (2025-05-22T15:34:50Z) - Multiclass Post-Earthquake Building Assessment Integrating High-Resolution Optical and SAR Satellite Imagery, Ground Motion, and Soil Data with Transformers [0.0]
本研究では,地震後の高分解能衛星画像と構造物の耐震性能に関連する建築固有のメタデータを組み合わせたフレームワークを提案する。
2023年2月6日トルコ・シリア地震の建物群を対象とした多層地震後の被害同定において, 現状の成果が得られた。
論文 参考訳(メタデータ) (2024-12-05T23:19:51Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - OOD-CV-v2: An extended Benchmark for Robustness to Out-of-Distribution
Shifts of Individual Nuisances in Natural Images [59.51657161097337]
OOD-CV-v2は、ポーズ、形状、テクスチャ、コンテキスト、気象条件の10のオブジェクトカテゴリのアウト・オブ・ディストリビューションの例を含むベンチマークデータセットである。
この新たなデータセットに加えて、一般的なベースライン手法を用いた広範な実験にも貢献する。
論文 参考訳(メタデータ) (2023-04-17T20:39:25Z) - RescueNet: Joint Building Segmentation and Damage Assessment from
Satellite Imagery [83.49145695899388]
RescueNetは、建物を同時に分割し、個々の建物に対する損傷レベルを評価し、エンドツーエンドでトレーニングできる統一モデルである。
RescueNetは大規模で多様なxBDデータセットでテストされており、従来の手法よりもはるかに優れたセグメンテーションと損傷分類性能を実現している。
論文 参考訳(メタデータ) (2020-04-15T19:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。