論文の概要: On the Role of Receptive Field in Unsupervised Sim-to-Real Image
Translation
- arxiv url: http://arxiv.org/abs/2001.09257v1
- Date: Sat, 25 Jan 2020 03:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 00:18:37.814177
- Title: On the Role of Receptive Field in Unsupervised Sim-to-Real Image
Translation
- Title(参考訳): 教師なしSim-to-Real画像翻訳における受容場の役割について
- Authors: Nikita Jaipuria, Shubh Gupta, Praveen Narayanan, Vidya N. Murali
- Abstract要約: GAN(Generative Adversarial Networks)は、フォトリアリスティック画像合成に広く利用されている。
GANは、画像が1つのドメインからもう1つのドメインに変換されるため、セマンティックコンテンツ保持の失敗に影響を受けやすい。
本稿では,不一致データを用いた教師なし画像と画像の翻訳における識別器の受容領域の役割について検討する。
- 参考スコア(独自算出の注目度): 4.664495510551647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Networks (GANs) are now widely used for
photo-realistic image synthesis. In applications where a simulated image needs
to be translated into a realistic image (sim-to-real), GANs trained on unpaired
data from the two domains are susceptible to failure in semantic content
retention as the image is translated from one domain to the other. This failure
mode is more pronounced in cases where the real data lacks content diversity,
resulting in a content \emph{mismatch} between the two domains - a situation
often encountered in real-world deployment. In this paper, we investigate the
role of the discriminator's receptive field in GANs for unsupervised
image-to-image translation with mismatched data, and study its effect on
semantic content retention. Experiments with the discriminator architecture of
a state-of-the-art coupled Variational Auto-Encoder (VAE) - GAN model on
diverse, mismatched datasets show that the discriminator receptive field is
directly correlated with semantic content discrepancy of the generated image.
- Abstract(参考訳): GAN(Generative Adversarial Networks)は現在、フォトリアリスティック画像合成に広く利用されている。
シミュレーション画像が現実画像(sim-to-real)に変換される必要のあるアプリケーションでは、2つのドメインからの非ペアデータでトレーニングされたganは、画像が1つのドメインから別のドメインに変換されるため、セマンティックコンテンツ保持の失敗に影響を受けやすい。
この障害モードは、実際のデータがコンテンツ多様性に欠けており、2つのドメイン間のコンテンツ \emph{mismatch} が発生する場合により顕著である。
本稿では,不一致データを用いた教師なし画像・画像翻訳における識別器の受容領域の役割について検討し,その意味的内容保持への影響について検討する。
多様な不一致データセット上のGANモデルによる最先端結合型変分自動エンコーダ(VAE)の判別器アーキテクチャによる実験により、判別器受容領域は生成した画像の意味的内容の相違と直接相関していることが示された。
関連論文リスト
- WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - StegoGAN: Leveraging Steganography for Non-Bijective Image-to-Image Translation [18.213286385769525]
CycleGANベースの手法は、生成した画像のミスマッチした情報を隠して、サイクル一貫性の目的をバイパスすることが知られている。
本稿では,ステガノグラフィーを利用した新しいモデルであるStegoGANを紹介した。
我々のアプローチは、追加の後処理や監督を必要とすることなく、翻訳画像のセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2024-03-29T12:23:58Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Unsupervised Domain Adaptation for Semantic Segmentation using One-shot
Image-to-Image Translation via Latent Representation Mixing [9.118706387430883]
超高解像度画像のセマンティックセグメンテーションのための新しい教師なし領域適応法を提案する。
潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダの原理に基づいて,画像から画像への変換パラダイムを提案する。
都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。
論文 参考訳(メタデータ) (2022-12-07T18:16:17Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Image-to-image Translation as a Unique Source of Knowledge [91.3755431537592]
本稿では,光学領域からSAR領域へのラベル付きデータセットの変換を行う。
積み重ねは、異なるI2I翻訳から学んだ知識を組み合わせる方法として提案され、単一のモデルに対して評価される。
論文 参考訳(メタデータ) (2021-12-03T12:12:04Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - Semantically Adaptive Image-to-image Translation for Domain Adaptation
of Semantic Segmentation [1.8275108630751844]
街路シーンのセマンティックセグメンテーションにおけるドメイン適応の問題に対処する。
最先端のアプローチの多くは、結果が入力とセマンティックに一致していることを示しながら、ソースイメージの翻訳に重点を置いている。
画像のセマンティクスを利用して翻訳アルゴリズムを導くことも提案する。
論文 参考訳(メタデータ) (2020-09-02T16:16:50Z) - Phase Consistent Ecological Domain Adaptation [76.75730500201536]
意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。
視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。
第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。
論文 参考訳(メタデータ) (2020-04-10T06:58:03Z) - CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency [119.45667331836583]
教師なしのドメイン適応アルゴリズムは、あるドメインから学んだ知識を別のドメインに転送することを目的としている。
本稿では,新しい画素単位の対向領域適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。