Fugu-MT 論文翻訳(概要): GeoSynth: Contextually-Aware High-Resolution Satellite Image Synthesis

論文の概要: GeoSynth: Contextually-Aware High-Resolution Satellite Image Synthesis

arxiv url: http://arxiv.org/abs/2404.06637v1
Date: Tue, 9 Apr 2024 22:16:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 15:59:06.748105
Title: GeoSynth: Contextually-Aware High-Resolution Satellite Image Synthesis
Title（参考訳）: GeoSynth: 環境に配慮した高分解能衛星画像合成
Authors: Srikumar Sastry, Subash Khanal, Aayush Dhakal, Nathan Jacobs,
Abstract要約: 衛星画像のグローバルなスタイルと画像駆動レイアウト制御による合成モデルを提案する。我々は、自動生成されたキャプションとOpenStreetMapデータを用いて、ペア化された衛星画像の大規模なデータセットに基づいてモデルをトレーニングする。その結果,本モデルは多種多様な高品質の画像を生成することができ,ゼロショットの一般化に優れることを示した。
参考スコア（独自算出の注目度）: 7.822924588609674
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present GeoSynth, a model for synthesizing satellite images with global style and image-driven layout control. The global style control is via textual prompts or geographic location. These enable the specification of scene semantics or regional appearance respectively, and can be used together. We train our model on a large dataset of paired satellite imagery, with automatically generated captions, and OpenStreetMap data. We evaluate various combinations of control inputs, including different types of layout controls. Results demonstrate that our model can generate diverse, high-quality images and exhibits excellent zero-shot generalization. The code and model checkpoints are available at https://github.com/mvrl/GeoSynth.
Abstract（参考訳）: 衛星画像のグローバルなスタイルと画像駆動レイアウト制御による合成モデルであるGeoSynthを提案する。グローバルなスタイルコントロールは、テキストプロンプトまたは地理的ロケーションを介して行われる。これらはそれぞれシーンのセマンティクスや地域的な外観の仕様化を可能にし、一緒に使用することができる。我々は、自動生成されたキャプションとOpenStreetMapデータを用いて、ペア化された衛星画像の大規模なデータセットに基づいてモデルをトレーニングする。我々は様々な種類のレイアウト制御を含む様々な制御入力の組み合わせを評価した。その結果,本モデルは多種多様な高品質な画像を生成することができ,ゼロショットの一般化に優れることを示した。コードとモデルチェックポイントはhttps://github.com/mvrl/GeoSynth.comで公開されている。

関連論文リスト

Cross-View Image Set Geo-Localization [29.13525096798705]
クロスビュージオローカライゼーション(CVGL)はロボットナビゲーションや拡張現実といった分野に広く応用されている。そこで我々は, 多様な視点で複数の画像を収集し, ローカライズのためのクエリセットとして, クロスビュー画像セットジオローカライズ(Set-CVGL)を提案する。
論文参考訳（メタデータ） (2024-12-25T09:46:14Z)
AnySynth: Harnessing the Power of Image Synthetic Data Generation for Generalized Vision-Language Tasks [23.041812897803034]
任意の種類の合成データを生成可能な統合フレームワークであるAny Synthを提案する。我々は、Few-shot Object Detection、クロスドメインオブジェクト検出、Zero-shot Image Retrieval、Multi-modal Image Perception and Groundingなど、さまざまなタスクでフレームワークの性能を検証する。
論文参考訳（メタデータ） (2024-11-24T04:49:07Z)
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis [54.852701978617056]
CrossViewDiffは、衛星間ビュー合成のためのクロスビュー拡散モデルである。ビュー間の大きな相違による課題に対処するため、衛星シーン構造推定とクロスプラットフォームテクスチャマッピングモジュールを設計する。合成結果のより包括的な評価を実現するため,GPTに基づくスコアリング手法を設計する。
論文参考訳（メタデータ） (2024-08-27T03:41:44Z)
GEOBIND: Binding Text, Image, and Audio through Satellite Images [7.291750095728984]
我々は、位置情報の衛星画像からテキスト、画像、音声など複数のモードを推測できるディープラーニングモデルGeoBindを提案する。トレーニングの結果,衛星画像,地上画像,音声,テキストなど,複数の種類のデータを用いた共同埋め込み空間が得られた。
論文参考訳（メタデータ） (2024-04-17T20:13:37Z)
DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文参考訳（メタデータ） (2023-12-06T16:53:17Z)
Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文参考訳（メタデータ） (2023-11-21T17:52:30Z)
CoGS: Controllable Generation and Search from Sketch and Style [35.625940819995996]
画像のスタイル条件付きスケッチ駆動合成法であるCoGSを提案する。 CoGSは、与えられたスケッチされたオブジェクトの様々な外観可能性の探索を可能にする。新たに作成したPseudosketchesデータセットの125のオブジェクトクラスをトレーニングしたモデルでは,セマンティックコンテンツや外観スタイルの多様さが実現可能であることを示す。
論文参考訳（メタデータ） (2022-03-17T18:36:11Z)
SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing [35.02841064647306]
StyleGANは、画像合成と編集の下流タスクに有望な事前モデルを提供する。本稿では,ジェネレータが局所的な意味部分を個別にモデル化し,構成的に画像を合成するように訓練されるSemanticStyleGANを提案する。
論文参考訳（メタデータ） (2021-12-04T04:17:11Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)
Example-Guided Image Synthesis across Arbitrary Scenes using Masked Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文参考訳（メタデータ） (2020-04-18T18:17:40Z)
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs [74.88118535585903]
ユーザ意図をきめ細かいレベルで表現するための抽象シーングラフ構造を提案する。本稿では,ASGからユーザ意図や意味を認識可能なASG2Captionモデルを提案する。我々のモデルは、VisualGenomeとMSCOCOの両方のデータセットのベースラインを慎重に設計するよりも、ASGの制御性条件付けが優れている。
論文参考訳（メタデータ） (2020-03-01T03:34:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。