論文の概要: Conditional Generation of Synthetic Geospatial Images from Pixel-level
and Feature-level Inputs
- arxiv url: http://arxiv.org/abs/2109.05201v1
- Date: Sat, 11 Sep 2021 06:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:13:33.587268
- Title: Conditional Generation of Synthetic Geospatial Images from Pixel-level
and Feature-level Inputs
- Title(参考訳): 画素レベルおよび特徴レベル入力による合成地理空間画像の条件生成
- Authors: Xuerong Xiao, Swetava Ganguli, Vipul Pandey
- Abstract要約: 画素レベル条件 (PLC) と特徴レベル条件 (FLC) を同時に条件付きで合成する条件生成モデル VAE-Info-cGAN を提案する。
提案モデルでは,道路網の時間的表現のみを条件に,異なる地理的位置をまたいだ様々な形態のマクロアグリゲーションを高精度に生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training robust supervised deep learning models for many geospatial
applications of computer vision is difficult due to dearth of class-balanced
and diverse training data. Conversely, obtaining enough training data for many
applications is financially prohibitive or may be infeasible, especially when
the application involves modeling rare or extreme events. Synthetically
generating data (and labels) using a generative model that can sample from a
target distribution and exploit the multi-scale nature of images can be an
inexpensive solution to address scarcity of labeled data. Towards this goal, we
present a deep conditional generative model, called VAE-Info-cGAN, that
combines a Variational Autoencoder (VAE) with a conditional Information
Maximizing Generative Adversarial Network (InfoGAN), for synthesizing
semantically rich images simultaneously conditioned on a pixel-level condition
(PLC) and a macroscopic feature-level condition (FLC). Dimensionally, the PLC
can only vary in the channel dimension from the synthesized image and is meant
to be a task-specific input. The FLC is modeled as an attribute vector in the
latent space of the generated image which controls the contributions of various
characteristic attributes germane to the target distribution. Experiments on a
GPS trajectories dataset show that the proposed model can accurately generate
various forms of spatiotemporal aggregates across different geographic
locations while conditioned only on a raster representation of the road
network. The primary intended application of the VAE-Info-cGAN is synthetic
data (and label) generation for targeted data augmentation for computer
vision-based modeling of problems relevant to geospatial analysis and remote
sensing.
- Abstract(参考訳): コンピュータビジョンの多くの地理空間応用のためのロバストな教師付きディープラーニングモデルのトレーニングは、クラスバランスと多種多様なトレーニングデータの不足のために難しい。
逆に、多くのアプリケーションで十分なトレーニングデータを取得することは金銭的に禁止されるか、特に稀なイベントや極端なイベントをモデル化するアプリケーションでは不可能である。
画像のマルチスケール性を利用した生成モデルを用いてデータ(およびラベル)を合成的に生成することは、ラベル付きデータの不足に対処するための安価なソリューションである。
この目的に向けて,可変オートエンコーダ (vae) と,画素レベル条件 (plc) と巨視的特徴レベル条件 (flc) を同時に条件づけた意味的にリッチな画像を合成する条件情報とを組み合わせた,深い条件付き生成モデルvae-info-cganを提案する。
次元的には、plcは合成画像からチャネル次元だけを変化させることができ、タスク固有の入力となることを意図している。
FLCは生成画像の潜時空間における属性ベクトルとしてモデル化され、ターゲット分布に対する様々な特性特性の寄与を制御する。
GPSトラジェクトリデータセットを用いた実験では,道路網のラスタ表現のみを条件に,異なる地理的位置をまたいだ様々な時空間集合を正確に生成できることが示されている。
VAE-Info-cGANの主な用途は、地理空間分析とリモートセンシングに関連する問題のコンピュータビジョンに基づくモデリングのための、ターゲットデータ拡張のための合成データ(およびラベル)生成である。
関連論文リスト
- BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Few-shot Image Generation via Information Transfer from the Built
Geodesic Surface [2.617962830559083]
構築地表面からの情報伝達法(ITBGS)を提案する。
FAGSモジュールでは、トレーニングデータセットからPre-Shape Spaceにイメージ機能を投影することで、擬似ソースドメインが生成される。
提案手法は,多種多様なセマンティックなデータセットにまたがって,最適な,あるいは同等な結果が得られることを実証する。
論文 参考訳(メタデータ) (2024-01-03T13:57:09Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - Hierarchical Graph-Convolutional Variational AutoEncoding for Generative
Modelling of Human Motion [1.2599533416395767]
人間の動きのモデルは通常、軌跡予測または行動分類に焦点を当てるが、どちらもまれである。
本稿では,階層的変動オートエンコーダと深部グラフ畳み込みニューラルネットワークに基づく新しいアーキテクチャを提案する。
この階層型グラフ共進化型自己エンコーダ(HG-VAE)は、コヒーレントな動作を生成し、分布外データを検出し、モデルの後部への勾配上昇による欠落データを出力できることを示す。
論文 参考訳(メタデータ) (2021-11-24T16:21:07Z) - VAE-Info-cGAN: Generating Synthetic Images by Combining Pixel-level and
Feature-level Geospatial Conditional Inputs [0.0]
画素レベル(PLC)と特徴レベル(FLC)を同時に条件付けした意味的リッチな画像を合成するための条件生成モデルを提案する。
GPSデータセットを用いた実験では,提案モデルが地理的に異なる場所にまたがる様々な形態のマクロアグリゲーションを正確に生成できることが示されている。
論文 参考訳(メタデータ) (2020-12-08T03:46:19Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。