論文の概要: Reusing Discriminators for Encoding: Towards Unsupervised Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2003.00273v6
- Date: Sat, 28 Mar 2020 14:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:52:46.234724
- Title: Reusing Discriminators for Encoding: Towards Unsupervised Image-to-Image
Translation
- Title(参考訳): 符号化のための識別器の再利用:教師なし画像変換を目指して
- Authors: Runfa Chen, Wenbing Huang, Binghui Huang, Fuchun Sun, Bin Fang
- Abstract要約: 本稿では,対象領域の画像を符号化するために識別器を再利用することで,識別器の新たな役割を論じる。
提案したアーキテクチャは、NICE-GANと呼ばれ、以前のアプローチよりも2つの有利なパターンを示している。
4つの人気のあるベンチマークの実験では、FID、KID、および人間の嗜好の観点から、最先端の手法よりもNICE-GANの方が優れた性能を示した。
- 参考スコア(独自算出の注目度): 36.90815405736024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised image-to-image translation is a central task in computer vision.
Current translation frameworks will abandon the discriminator once the training
process is completed. This paper contends a novel role of the discriminator by
reusing it for encoding the images of the target domain. The proposed
architecture, termed as NICE-GAN, exhibits two advantageous patterns over
previous approaches: First, it is more compact since no independent encoding
component is required; Second, this plug-in encoder is directly trained by the
adversary loss, making it more informative and trained more effectively if a
multi-scale discriminator is applied. The main issue in NICE-GAN is the
coupling of translation with discrimination along the encoder, which could
incur training inconsistency when we play the min-max game via GAN. To tackle
this issue, we develop a decoupled training strategy by which the encoder is
only trained when maximizing the adversary loss while keeping frozen otherwise.
Extensive experiments on four popular benchmarks demonstrate the superior
performance of NICE-GAN over state-of-the-art methods in terms of FID, KID, and
also human preference. Comprehensive ablation studies are also carried out to
isolate the validity of each proposed component. Our codes are available at
https://github.com/alpc91/NICE-GAN-pytorch.
- Abstract(参考訳): 教師なし画像画像変換はコンピュータビジョンにおける中心的な課題である。
現在の翻訳フレームワークは、トレーニングプロセスが完了すると差別を放棄する。
本稿では,対象領域の画像の符号化に使用する識別器の新たな役割について考察する。
NICE-GANと呼ばれるこのアーキテクチャは、従来のアプローチよりも2つの有利なパターンを示す: 第一に、独立した符号化部品を必要としないため、よりコンパクトである; 第二に、このプラグインエンコーダは、敵の損失によって直接訓練され、マルチスケールの識別器が適用されれば、より情報的かつ効果的に訓練される。
nice-ganの主な問題は、エンコーダに沿って翻訳と識別を結合することであり、ganでmin-maxゲームをプレイする場合、トレーニングの一貫性を損なう可能性がある。
この問題に対処するために, エンコーダは凍結を保ちながら敵の損失を最大化する際にのみ訓練される, 分離されたトレーニング戦略を開発する。
一般的な4つのベンチマークにおいて、FID、KID、および人間の嗜好の観点から、最先端の手法よりもNICE-GANの方が優れた性能を示した。
また, 各成分の有効性を明らかにするための包括的アブレーション研究も行った。
私たちのコードはhttps://github.com/alpc91/nice-gan-pytorchで利用可能です。
関連論文リスト
- Semi-supervised Domain Adaptive Medical Image Segmentation through
Consistency Regularized Disentangled Contrastive Learning [11.049672162852733]
本研究では,医用画像分割のための半教師付き領域適応法(SSDA)について検討した。
本稿では,2段階の学習プロセスを提案する。まず,新しいドメイン・コンテント・ディコンタングル・コントラスト学習(CL)と画素レベルの特徴整合性制約を用いて,自己学習パラダイムでエンコーダを事前学習する。
提案手法がUDA設定で容易に拡張可能であることを実験的に検証し、提案手法の優位性を高める。
論文 参考訳(メタデータ) (2023-07-06T06:13:22Z) - Rethinking the Paradigm of Content Constraints in Unpaired
Image-to-Image Translation [9.900050049833986]
本稿では,パッチレベルの特徴の潜在空間における表現的類似性を制約することにより,コンテンツ管理のシンプルかつ効率的な方法であるEnCoを提案する。
類似性関数に対しては、I2Iタスクで広く使われている対照的な損失ではなく、単純なMSE損失を用いる。
さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングの代替として, DAG(Disdisnative attention-guided)パッチサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-11-20T04:39:57Z) - Re-using Adversarial Mask Discriminators for Test-time Training under
Distribution Shifts [10.647970046084916]
安定判別器の訓練によって表現的損失関数が生成され、推論時に再使用してセグメント化ミスを検出し、修正することができると論じる。
我々は、識別器と画像再構成コストを(デコーダを介して)組み合わせることで、モデルをさらに改善できることを示す。
提案手法は単純で,事前学習したGANの試験時間性能を向上させる。
論文 参考訳(メタデータ) (2021-08-26T17:31:46Z) - Dual Contrastive Learning for Unsupervised Image-to-Image Translation [16.759958400617947]
unsupervised image-to-image translationタスクは、非ペアトレーニングデータからソースドメインxとターゲットドメインyとのマッピングを見つけることを目的としている。
画像対画像翻訳におけるコントラスト学習は最先端の成果をもたらす。
本論文では, 対比学習に基づく新しい手法と, 対比データ間の効率的なマッピングを推定するデュアルラーニング設定を提案する。
論文 参考訳(メタデータ) (2021-04-15T18:00:22Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - Training GANs with Stronger Augmentations via Contrastive Discriminator [80.8216679195]
本稿では,gan判別器にコントラスト表現学習方式を導入する。
この「融合」により、識別者は訓練の不安定さを増すことなく、より強力な増強に対処できる。
実験の結果,contratd付きganはfidを一貫して改善し,データ拡張を組み込んだ他の手法と比較した。
論文 参考訳(メタデータ) (2021-03-17T16:04:54Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。