論文の概要: Improving Deep Generative Models on Many-To-One Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2402.12531v2
- Date: Thu, 22 Feb 2024 23:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:09:54.009431
- Title: Improving Deep Generative Models on Many-To-One Image-to-Image
Translation
- Title(参考訳): 画像間翻訳における深部生成モデルの改善
- Authors: Sagar Saxena, Mohammad Nayeem Teli
- Abstract要約: 我々は,画像から画像への翻訳において,既存の深層生成モデルを改善するための新しい非対称フレームワークを提案する。
教師なしと半教師付きの両方の設定において、この新しいモデルの性能は多対一のイメージ・ツー・イメージの翻訳を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep generative models have been applied to multiple applications in
image-to-image translation. Generative Adversarial Networks and Diffusion
Models have presented impressive results, setting new state-of-the-art results
on these tasks. Most methods have symmetric setups across the different domains
in a dataset. These methods assume that all domains have either multiple
modalities or only one modality. However, there are many datasets that have a
many-to-one relationship between two domains. In this work, we first introduce
a Colorized MNIST dataset and a Color-Recall score that can provide a simple
benchmark for evaluating models on many-to-one translation. We then introduce a
new asymmetric framework to improve existing deep generative models on
many-to-one image-to-image translation. We apply this framework to StarGAN V2
and show that in both unsupervised and semi-supervised settings, the
performance of this new model improves on many-to-one image-to-image
translation.
- Abstract(参考訳): 画像から画像への翻訳における複数の応用に深層生成モデルが応用されている。
生成的逆ネットワークと拡散モデルが印象的な結果を示し、これらのタスクに新たな最先端の結果を設定した。
ほとんどのメソッドはデータセット内の異なるドメインに対称的な設定を持つ。
これらの手法は、すべての領域が複数のモダリティまたは1つのモダリティを持つと仮定する。
しかし、2つのドメイン間で多対一の関係を持つデータセットは数多く存在する。
本研究では、まず、色付きMNISTデータセットとカラーリコールスコアを導入し、多対一翻訳モデル評価のための簡単なベンチマークを提供する。
次に,多対一画像翻訳における既存の深層生成モデルを改善するための新しい非対称フレームワークを提案する。
我々はこのフレームワークをStarGAN V2に適用し、教師なしと半教師なしの両方の設定において、この新モデルの性能が多対一のイメージ変換を改善することを示す。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - A Domain Gap Aware Generative Adversarial Network for Multi-domain Image
Translation [22.47113158859034]
本稿では,複数の領域にまたがって画像の変換を行う統一モデルを提案する。
単一の統一ジェネレータにより、モデルはグローバルな形状と複数のドメインにわたる局所的なテクスチャ情報との整合性を維持することができる。
論文 参考訳(メタデータ) (2021-10-21T00:33:06Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - GMM-UNIT: Unsupervised Multi-Domain and Multi-Modal Image-to-Image
Translation via Attribute Gaussian Mixture Modeling [66.50914391679375]
unsupervised image-to-image translation (UNIT) は、未経験の訓練画像を用いて、複数の視覚領域間のマッピングを学習することを目的としている。
最近の研究は、複数のドメインで顕著な成功を示しているが、それらは2つの主要な制限に悩まされている。
GMM-UNITという,空間にGMMを組み込むコンテンツ属性不整合表現に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-03-15T10:18:56Z) - GANILLA: Generative Adversarial Networks for Image to Illustration
Translation [12.55972766570669]
現状のイメージ・ツー・イメージ翻訳モデルでは,スタイルとコンテンツのいずれかを変換することに成功したが,同時に両者を転送することはできなかった。
本稿では,この問題に対処する新しいジェネレータネットワークを提案し,その結果のネットワークがスタイルとコンテンツのバランスを良くすることを示す。
論文 参考訳(メタデータ) (2020-02-13T17:12:09Z) - Concurrently Extrapolating and Interpolating Networks for Continuous
Model Generation [34.72650269503811]
本稿では,一組の特定効果ラベル画像のみを必要とするモデル列を形成するための,シンプルで効果的なモデル生成戦略を提案する。
提案手法は一連の連続モデルの生成が可能であり,画像平滑化のための最先端手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-12T04:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。