論文の概要: VectorSynth: Fine-Grained Satellite Image Synthesis with Structured Semantics
- arxiv url: http://arxiv.org/abs/2511.07744v1
- Date: Wed, 12 Nov 2025 01:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.457912
- Title: VectorSynth: Fine-Grained Satellite Image Synthesis with Structured Semantics
- Title(参考訳): VectorSynth:構造化セマンティックスを用いた細粒衛星画像合成
- Authors: Daniel Cher, Brian Wei, Srikumar Sastry, Nathan Jacobs,
- Abstract要約: セマンティック属性を持つ合成地理アノテーションに基づく画素精度衛星画像の拡散に基づくフレームワークであるVector Synthを紹介する。
以前のテキストやレイアウト条件のモデルとは異なり、Vector Synthは密接なクロスモーダル対応を学習し、セマンティックベクトル幾何学を整列させ、微粒で空間的に接した編集を可能にする。
- 参考スコア(独自算出の注目度): 16.29123003949871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VectorSynth, a diffusion-based framework for pixel-accurate satellite image synthesis conditioned on polygonal geographic annotations with semantic attributes. Unlike prior text- or layout-conditioned models, VectorSynth learns dense cross-modal correspondences that align imagery and semantic vector geometry, enabling fine-grained, spatially grounded edits. A vision language alignment module produces pixel-level embeddings from polygon semantics; these embeddings guide a conditional image generation framework to respect both spatial extents and semantic cues. VectorSynth supports interactive workflows that mix language prompts with geometry-aware conditioning, allowing rapid what-if simulations, spatial edits, and map-informed content generation. For training and evaluation, we assemble a collection of satellite scenes paired with pixel-registered polygon annotations spanning diverse urban scenes with both built and natural features. We observe strong improvements over prior methods in semantic fidelity and structural realism, and show that our trained vision language model demonstrates fine-grained spatial grounding. The code and data are available at https://github.com/mvrl/VectorSynth.
- Abstract(参考訳): 意味属性を持つ多角的地理アノテーションを条件とした画素精度衛星画像合成のための拡散に基づくフレームワークであるVectorSynthを紹介する。
以前のテキストやレイアウト条件のモデルとは異なり、VectorSynthは画像と意味的ベクトル幾何学を整列する密集したクロスモーダル対応を学習し、きめ細かい、空間的に接地された編集を可能にする。
視覚言語アライメントモジュールは、ポリゴン意味論からピクセルレベルの埋め込みを生成する。
VectorSynthは、言語プロンプトとジオメトリ対応の条件付けを併用したインタラクティブワークフローをサポートし、高速なWhat-ifシミュレーション、空間編集、マップインフォームドコンテンツ生成を可能にする。
訓練と評価のために,様々な都市景観にまたがる画素登録ポリゴンアノテーションと組み合わせた衛星シーンのコレクションを,構築と自然の両方の特徴で組み立てる。
意味的忠実度と構造的リアリズムにおける先行手法に対する強い改善を観察し、訓練された視覚言語モデルがきめ細かな空間的接地を示すことを示す。
コードとデータはhttps://github.com/mvrl/VectorSynth.comで公開されている。
関連論文リスト
- Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。
生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-13T16:19:00Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - CrossModalityDiffusion: Multi-Modal Novel View Synthesis with Unified Intermediate Representation [0.5242869847419834]
CrossModalityDiffusion(クロスモダリティ・ディフュージョン)は、シーン幾何学の知識を必要とせず、様々なモダリティにまたがる画像を生成するために設計されたモジュラーフレームワークである。
異なるモジュールを共同でトレーニングすることで、フレームワーク内のすべてのモダリティに対して一貫した幾何学的理解が保証されることを示す。
合成ShapeNet車のデータセット上でのCrossModalityDiffusionの機能を検証する。
論文 参考訳(メタデータ) (2025-01-16T20:56:32Z) - Semantic Lens: Instance-Centric Semantic Alignment for Video
Super-Resolution [36.48329560039897]
フレーム間アライメントはビデオ超解像(VSR)の重要な手がかりである
本稿では,セマンティックレンズ(Semantic Lens)という,VSRのための新しいパラダイムを提案する。
ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。
論文 参考訳(メタデータ) (2023-12-13T01:16:50Z) - A geometrically aware auto-encoder for multi-texture synthesis [1.2891210250935146]
マルチテクスチャ合成のための自動エンコーダアーキテクチャを提案する。
画像はコンパクトで幾何学的に整合した潜在空間に埋め込まれる。
テクスチャ合成とタスクは、これらの潜在コードから直接実行することができる。
論文 参考訳(メタデータ) (2023-02-03T09:28:39Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。