論文の概要: Semantic Map Injected GAN Training for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2112.01845v1
- Date: Fri, 3 Dec 2021 10:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 16:15:29.025902
- Title: Semantic Map Injected GAN Training for Image-to-Image Translation
- Title(参考訳): 画像間翻訳のための意味マップ注入型GAN訓練
- Authors: Balaram Singh Kshatriya, Shiv Ram Dubey, Himangshu Sarma, Kunal
Chaudhary, Meva Ram Gurjar, Rahul Rai, Sunny Manchanda
- Abstract要約: 画像から画像への変換は、GAN(Generative Adversarial Network)を用いて、あるドメインから別のドメインへ画像を変換する最近の傾向である。
本稿では,GANモデルのセマンティック・インジェクト・トレーニングを行う。
そこで本研究では,SSIM,FID,KIDの点数を用いて,意味学習の実施による性能向上を観察した。
- 参考スコア(独自算出の注目度): 6.8130153656556915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-image translation is the recent trend to transform images from one
domain to another domain using generative adversarial network (GAN). The
existing GAN models perform the training by only utilizing the input and output
modalities of transformation. In this paper, we perform the semantic injected
training of GAN models. Specifically, we train with original input and output
modalities and inject a few epochs of training for translation from input to
semantic map. Lets refer the original training as the training for the
translation of input image into target domain. The injection of semantic
training in the original training improves the generalization capability of the
trained GAN model. Moreover, it also preserves the categorical information in a
better way in the generated image. The semantic map is only utilized at the
training time and is not required at the test time. The experiments are
performed using state-of-the-art GAN models over CityScapes and RGB-NIR stereo
datasets. We observe the improved performance in terms of the SSIM, FID and KID
scores after injecting semantic training as compared to original training.
- Abstract(参考訳): 画像から画像への変換は、GAN(Generative Adversarial Network)を用いて、あるドメインから別のドメインへ画像を変換する最近の傾向である。
既存のGANモデルは、変換の入力と出力のモダリティのみを利用してトレーニングを行う。
本稿では,GANモデルの意味的注入訓練を行う。
具体的には、入力と出力のモダリティをトレーニングし、入力から意味マップへの変換のためのトレーニングを数エポックで注入する。
入力画像のターゲット領域への変換のトレーニングとして、元のトレーニングを参照しよう。
元の訓練における意味訓練の注入は、訓練されたGANモデルの一般化能力を向上させる。
さらに、生成された画像においてカテゴリ情報をより良い方法で保存する。
セマンティックマップはトレーニング時にのみ使用され、テスト時に必要とされない。
実験は、CityScapesとRGB-NIRステレオデータセット上で最先端のGANモデルを用いて実施される。
そこで本研究では,SSIM,FID,KIDのスコアを用いて,意味学習を原語学習と比較し,改良された性能を観察した。
関連論文リスト
- Enhancing pretraining efficiency for medical image segmentation via transferability metrics [0.0]
医用画像のセグメンテーションタスクでは、ラベル付きトレーニングデータの不足が大きな課題となっている。
本稿では,事前学習したモデルが対象データをいかに頑健に表現できるかを計測する,対照的な学習に基づく新しい伝達可能性指標を提案する。
論文 参考訳(メタデータ) (2024-10-24T12:11:52Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z) - Synthetic-to-Real Domain Adaptation using Contrastive Unpaired
Translation [28.19031441659854]
手動のアノテーションを使わずにトレーニングデータを取得するための多段階手法を提案する。
3Dオブジェクトメッシュから,現代的な合成パイプラインを用いて画像を生成する。
合成画像の実際の領域への適応に最先端のイメージ・ツー・イメージ変換法を用いる。
論文 参考訳(メタデータ) (2022-03-17T17:13:23Z) - VTBR: Semantic-based Pretraining for Person Re-Identification [14.0819152482295]
本稿では,VTBRという純粋意味に基づく事前学習手法を提案する。
我々は、FinGPR-Cデータセットのキャプションをスクラッチから畳み込みネットワークをトレーニングし、それらを下流のRe-IDタスクに転送する。
論文 参考訳(メタデータ) (2021-10-11T08:19:45Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。