論文の概要: Full-Glow: Fully conditional Glow for more realistic image generation
- arxiv url: http://arxiv.org/abs/2012.05846v1
- Date: Thu, 10 Dec 2020 17:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:34:10.540791
- Title: Full-Glow: Fully conditional Glow for more realistic image generation
- Title(参考訳): フルGlow:よりリアルな画像生成のための条件付きGlow
- Authors: Moein Sorkhei, Gustav Eje Henter, Hedvig Kjellstr\"om
- Abstract要約: Full-Glowは、新しいストリートシーンの可視的で現実的なイメージを生成するための条件付きGlowアーキテクチャである。
ベンチマーク比較では,事前学習したpspnetのセグメンテーション性能の観点から,最近の研究よりも優れるモデルを示す。
- 参考スコア(独自算出の注目度): 9.30816997952245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents, such as driverless cars, require large amounts of labeled
visual data for their training. A viable approach for acquiring such data is
training a generative model with collected real data, and then augmenting the
collected real dataset with synthetic images from the model, generated with
control of the scene layout and ground truth labeling. In this paper we propose
Full-Glow, a fully conditional Glow-based architecture for generating plausible
and realistic images of novel street scenes given a semantic segmentation map
indicating the scene layout. Benchmark comparisons show our model to outperform
recent works in terms of the semantic segmentation performance of a pretrained
PSPNet. This indicates that images from our model are, to a higher degree than
from other models, similar to real images of the same kinds of scenes and
objects, making them suitable as training data for a visual semantic
segmentation or object recognition system.
- Abstract(参考訳): 自動運転車のような自律エージェントは、トレーニングのために大量のラベル付きビジュアルデータを必要とする。
このようなデータを取得するための有効なアプローチは、収集した実データで生成モデルをトレーニングし、収集した実データセットをモデルからの合成画像で拡張し、シーンレイアウトと基底真理ラベルを制御して生成する。
本稿では,シーンレイアウトを表す意味的セグメンテーションマップを与えられた新しい街路シーンの多目的かつ現実的な画像を生成するためのフルグレー,フル条件のグローベースアーキテクチャを提案する。
ベンチマーク比較では,事前学習したpspnetのセグメンテーション性能の観点から,最近の研究よりも優れるモデルを示す。
これは、モデルからのイメージが、他のモデルよりも高い程度に、同じ種類のシーンやオブジェクトの実際のイメージに似ており、視覚的意味セグメンテーションやオブジェクト認識システムのトレーニングデータとして適していることを示している。
関連論文リスト
- Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Fake it till you make it: Learning transferable representations from
synthetic ImageNet clones [30.264601433216246]
ImageNetクローンは、合成画像と実画像で訓練されたモデルとのギャップの大部分を埋めることができることを示す。
合成画像上で訓練されたモデルは,強い一般化特性を示し,実際のデータで訓練されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-12-16T11:44:01Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。