論文の概要: A Shared Representation for Photorealistic Driving Simulators
- arxiv url: http://arxiv.org/abs/2112.05134v1
- Date: Thu, 9 Dec 2021 18:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 14:53:47.928889
- Title: A Shared Representation for Photorealistic Driving Simulators
- Title(参考訳): 光現実性駆動シミュレータの共有表現
- Authors: Saeed Saadatnejad, Siyuan Li, Taylor Mordan, Alexandre Alahi
- Abstract要約: 本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
- 参考スコア(独自算出の注目度): 83.5985178314263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A powerful simulator highly decreases the need for real-world tests when
training and evaluating autonomous vehicles. Data-driven simulators flourished
with the recent advancement of conditional Generative Adversarial Networks
(cGANs), providing high-fidelity images. The main challenge is synthesizing
photorealistic images while following given constraints. In this work, we
propose to improve the quality of generated images by rethinking the
discriminator architecture. The focus is on the class of problems where images
are generated given semantic inputs, such as scene segmentation maps or human
body poses. We build on successful cGAN models to propose a new
semantically-aware discriminator that better guides the generator. We aim to
learn a shared latent representation that encodes enough information to jointly
do semantic segmentation, content reconstruction, along with a coarse-to-fine
grained adversarial reasoning. The achieved improvements are generic and simple
enough to be applied to any architecture of conditional image synthesis. We
demonstrate the strength of our method on the scene, building, and human
synthesis tasks across three different datasets. The code is available at
https://github.com/vita-epfl/SemDisc.
- Abstract(参考訳): 強力なシミュレータは、自動運転車の訓練および評価において、現実世界のテストの必要性を著しく低減する。
データ駆動シミュレータは、最近の条件付きジェネレーティブ・アドバイサル・ネットワーク(cGAN)の発展により、高忠実度画像の提供で栄えた。
主な課題は、与えられた制約に従ってフォトリアリスティック画像を合成することである。
本研究では,識別器アーキテクチャを再考し,生成画像の品質を向上させることを提案する。
焦点は、シーンのセグメンテーションマップや人間のポーズなど、意味的な入力によって画像が生成される問題のクラスである。
我々はcGANモデルを成功させ、ジェネレータをより良く誘導する意味認識型識別器を提案する。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報を符号化する,共有潜在表現の学習を目指す。
達成された改善は汎用的で、条件付き画像合成のアーキテクチャに適用できるほど単純である。
3つの異なるデータセットにまたがるシーン,構築,ヒューマンシンセシスタスクにおいて,提案手法の強みを示す。
コードはhttps://github.com/vita-epfl/SemDisc.comで入手できる。
関連論文リスト
- Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Joint one-sided synthetic unpaired image translation and segmentation
for colorectal cancer prevention [16.356954231068077]
我々は3D技術と生成対向ネットワークを組み合わせたリアルな合成画像を作成する。
CUT-segは,分割モデルと生成モデルとを共同で訓練し,現実的な画像を生成する共同訓練である。
この研究の一環として、20000のリアルな大腸画像を含む完全に合成されたデータセットであるSynth-Colonをリリースする。
論文 参考訳(メタデータ) (2023-07-20T22:09:04Z) - Towards Pragmatic Semantic Image Synthesis for Urban Scenes [4.36080478413575]
合成画像とラベル付きデータセットとラベルなしの実画像付きデータセットが与えられた場合、入力マスクの内容と実際の画像の外観で画像を生成することができるモデルを学ぶことが目的である。
合成画像は, パッチレベルでの高次特徴の違いをペナルティ化することにより, 生成画像の内容のガイドとして活用する。
対象領域のセマンティックな分布に過度に適合する1つの識別器を用いた以前の研究とは対照的に、画像全体の識別器と画像パッチ上のマルチスケール識別器を用いる。
論文 参考訳(メタデータ) (2023-05-16T18:01:12Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - StackGAN: Facial Image Generation Optimizations [0.0]
現在の最先端のフォトリアリスティック・ジェネレータは計算コストが高く、不安定な訓練過程を伴い、高次元空間で異なる実空間と合成分布を持つ。
そこで我々は,条件付きジェネレータを組み込んだStackGANアーキテクチャの変種を提案する。
我々のモデルはCelebA顔画像データセットを用いて訓練され、エッジ画像のFr'echet Inception Distance(FID)スコア73、合成エッジ画像のグレースケール画像のスコア59を達成した。
論文 参考訳(メタデータ) (2021-08-30T15:04:47Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。