論文の概要: Masked Discriminators for Content-Consistent Unpaired Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2309.13188v1
- Date: Fri, 22 Sep 2023 21:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:45:43.792110
- Title: Masked Discriminators for Content-Consistent Unpaired Image-to-Image
Translation
- Title(参考訳): コンテンツ一貫性のない画像間翻訳のためのマスク付き判別器
- Authors: Bonifaz Stuhr, J\"urgen Brauer, Bernhard Schick, Jordi Gonz\`alez
- Abstract要約: 画像から画像への変換の欠如の共通のゴールは、ソース画像と翻訳画像の間のコンテンツ一貫性を維持することである。
コンテンツベースのマスクを用いて、両領域のグローバル識別器の入力をマスキングすることは、コンテンツの不整合を著しく低減するのに十分であることを示す。
実験により,本手法は,光現実的シミュレーショナル翻訳と気象翻訳において,最先端の性能を達成できることが判明した。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common goal of unpaired image-to-image translation is to preserve content
consistency between source images and translated images while mimicking the
style of the target domain. Due to biases between the datasets of both domains,
many methods suffer from inconsistencies caused by the translation process.
Most approaches introduced to mitigate these inconsistencies do not constrain
the discriminator, leading to an even more ill-posed training setup. Moreover,
none of these approaches is designed for larger crop sizes. In this work, we
show that masking the inputs of a global discriminator for both domains with a
content-based mask is sufficient to reduce content inconsistencies
significantly. However, this strategy leads to artifacts that can be traced
back to the masking process. To reduce these artifacts, we introduce a local
discriminator that operates on pairs of small crops selected with a similarity
sampling strategy. Furthermore, we apply this sampling strategy to sample
global input crops from the source and target dataset. In addition, we propose
feature-attentive denormalization to selectively incorporate content-based
statistics into the generator stream. In our experiments, we show that our
method achieves state-of-the-art performance in photorealistic sim-to-real
translation and weather translation and also performs well in day-to-night
translation. Additionally, we propose the cKVD metric, which builds on the sKVD
metric and enables the examination of translation quality at the class or
category level.
- Abstract(参考訳): unpaired image-to-image translationの共通の目標は、対象領域のスタイルを模倣しながら、ソース画像と翻訳画像間のコンテンツ一貫性を維持することである。
両方のドメインのデータセット間のバイアスのため、多くのメソッドは翻訳プロセスによって引き起こされる不整合に苦しむ。
これらの不整合を緩和するために導入されたほとんどのアプローチは、差別を制限せず、さらに不整合なトレーニング設定につながる。
さらに、これらのアプローチは、より大きな作物サイズのために設計されていない。
本研究では,コンテンツベースマスクを用いた両ドメインにおけるグローバル判別器の入力をマスキングすることで,コンテンツの不整合を著しく低減できることを示す。
しかし、この戦略は、マスキングプロセスに遡ることができるアーティファクトへと繋がる。
これらのアーティファクトを減らすために、類似性サンプリング戦略で選択された小作物のペアで動作する局所判別器を導入する。
さらに、このサンプリング戦略を適用し、ソースおよびターゲットデータセットからグローバルな入力作物をサンプリングする。
さらに,コンテントベースの統計データをジェネレータストリームに選択的に組み込む機能付き非正規化を提案する。
本実験では,光リアルなシミュレーショナル翻訳と天気翻訳において最先端の性能を実現し,日毎の翻訳でも良好に動作することを示す。
さらに,sKVD尺度に基づいて,クラスやカテゴリレベルでの翻訳品質の検証を可能にするcKVD尺度を提案する。
関連論文リスト
- Seed-to-Seed: Image Translation in Diffusion Seed Space [20.590890565046074]
拡散モデル(DM)を用いた画像間翻訳の新しいアプローチであるシード・ツー・シード翻訳(StS)を導入する。
我々は,予め訓練されたDMの逆種子空間内でコード化されている意味情報を活用し,種空間と呼ぶ。
提案手法は,事前訓練されたDMのシード空間内に符号化された意味情報を有効画像編集・操作に利用するための新たな視点を提供する。
論文 参考訳(メタデータ) (2024-09-01T08:07:59Z) - Multi-cropping Contrastive Learning and Domain Consistency for
Unsupervised Image-to-Image Translation [5.562419999563734]
マルチクロップ型コントラスト学習とドメイン整合性に基づく新しい教師なし画像から画像への翻訳フレームワーク MCDUT を提案する。
多くの画像と画像の翻訳タスクにおいて,本手法は最先端の結果を達成し,その利点は比較実験とアブレーション研究によって証明されている。
論文 参考訳(メタデータ) (2023-04-24T16:20:28Z) - Smooth image-to-image translations with latent space interpolations [64.8170758294427]
マルチドメインイメージ・トゥ・イメージ(I2I)変換は、ターゲットドメインのスタイルに応じてソースイメージを変換することができる。
我々の正規化技術は、最先端のI2I翻訳を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2022-10-03T11:57:30Z) - Global and Local Alignment Networks for Unpaired Image-to-Image
Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。
既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。
我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。
本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文 参考訳(メタデータ) (2021-11-19T18:01:54Z) - Separating Content and Style for Unsupervised Image-to-Image Translation [20.44733685446886]
教師なしのイメージ・ツー・イメージ翻訳は、2つの視覚領域間のマッピングを未ペアのサンプルで学習することを目的としている。
統合されたフレームワークでコンテンツコードとスタイルコードを同時に分離することを提案する。
潜在機能と高レベルのドメイン不変タスクの相関から,提案手法は優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-27T12:56:50Z) - Semi-supervised Semantic Segmentation with Directional Context-aware
Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。
好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。
我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文 参考訳(メタデータ) (2021-06-27T03:42:40Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - GAIT: Gradient Adjusted Unsupervised Image-to-Image Translation [5.076419064097734]
対向損失を利用して、翻訳された画像セットと対象画像セットの分布を一致させる。
これにより、2つの領域が例えば一様領域において異なる辺分布を持つようなアーティファクトが生成される。
本稿では,翻訳後の一様領域を保存する教師なしIITを提案する。
論文 参考訳(メタデータ) (2020-09-02T08:04:00Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。