論文の概要: Efficient High-Resolution Image-to-Image Translation using Multi-Scale
Gradient U-Net
- arxiv url: http://arxiv.org/abs/2105.13067v1
- Date: Thu, 27 May 2021 11:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:08:50.799703
- Title: Efficient High-Resolution Image-to-Image Translation using Multi-Scale
Gradient U-Net
- Title(参考訳): マルチスケール勾配U-Netを用いた高分解能画像変換
- Authors: Kumarapu Laxman, Shiv Ram Dubey, Baddam Kalyan, and Satya Raj Vineel
Kojjarapu
- Abstract要約: コンディショナル・ジェネレーション・アドバイサル・ネットワーク(Conditional Generative Adversarial Network (Conditional GAN))は,複数の画像から画像への変換アプリケーションにおいて,非常に有望な性能を示している。
Pix2Pix-HDは、高解像度画像合成に条件付きGANを利用する最近の試みである。
本稿では,2048X1024解像度までの高解像度画像・画像変換のためのマルチスケールグラディエントベースU-Netモデルを提案する。
- 参考スコア(独自算出の注目度): 8.133448803619766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Conditional Generative Adversarial Network (Conditional GAN) have
shown very promising performance in several image-to-image translation
applications. However, the uses of these conditional GANs are quite limited to
low-resolution images, such as 256X256.The Pix2Pix-HD is a recent attempt to
utilize the conditional GAN for high-resolution image synthesis. In this paper,
we propose a Multi-Scale Gradient based U-Net (MSG U-Net) model for
high-resolution image-to-image translation up to 2048X1024 resolution. The
proposed model is trained by allowing the flow of gradients from
multiple-discriminators to a single generator at multiple scales. The proposed
MSG U-Net architecture leads to photo-realistic high-resolution image-to-image
translation. Moreover, the proposed model is computationally efficient as
com-pared to the Pix2Pix-HD with an improvement in the inference time nearly by
2.5 times. We provide the code of MSG U-Net model at
https://github.com/laxmaniron/MSG-U-Net.
- Abstract(参考訳): 近年,条件付き生成型adversarial network (conditional gan) は,画像から画像への翻訳において非常に有望な性能を示している。
しかし、これらの条件付きGANは256X256などの低解像度画像に限られており、Pix2Pix-HDは高解像度画像合成に条件付きGANを利用する最近の試みである。
本稿では,2048X1024解像度までの高解像度画像変換のためのマルチスケールグラディエントベースU-Net(MSG U-Net)モデルを提案する。
提案モデルでは,複数の判別器から複数スケールの1つの発電機へ勾配を流すことができる。
提案したMSG U-Netアーキテクチャは、フォトリアリスティックな高解像度画像から画像への変換をもたらす。
さらに,提案手法はPix2Pix-HDに比較して計算効率が良く,推定時間を2.5倍近く改善する。
https://github.com/laxmaniron/MSG-U-NetでMSG U-Netモデルのコードを提供する。
関連論文リスト
- I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Text to Image Synthesis using Stacked Conditional Variational
Autoencoders and Conditional Generative Adversarial Networks [0.0]
現在のテキストから画像合成アプローチは、テキスト記述子を表す高解像度のイメージを生成できない。
本研究では、条件付きVAEを初期生成器として使用し、テキスト記述子の高レベルスケッチを生成する。
提案アーキテクチャは,条件付拡張と条件付きGANネットワーク上の残差ブロックの利点を生かし,その結果を得た。
論文 参考訳(メタデータ) (2022-07-06T13:43:56Z) - GR-GAN: Gradual Refinement Text-to-image Generation [15.99543073122574]
本稿では, この問題を効果的に緩和するために, GR-GAN(Gradual Refinement Generative Adversarial Network)を提案する。
GRGモジュールは、対応するテキスト制約で低解像度から高解像度の画像を生成するように設計されている。
ITMモジュールは、文-画像レベルと単語-領域レベルの両方で画像-テキスト整合損失を提供するように設計されている。
論文 参考訳(メタデータ) (2022-05-23T12:42:04Z) - ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image
Translation [55.47515538020578]
本研究は,マルチモーダル画像とマルチドメイン画像の直接変換を実現する暗黙的スタイル関数 (ISF) を提案する。
ヒトの顔と動物に対する手術の結果は,ベースラインよりも有意に改善した。
我々のモデルは、事前訓練された無条件GANを用いて、高解像度で費用対効果の高いマルチモーダル・アントラクショナル・イメージ・ツー・イメージ翻訳を可能にする。
論文 参考訳(メタデータ) (2021-09-26T04:51:39Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - High-Resolution Photorealistic Image Translation in Real-Time: A
Laplacian Pyramid Translation Network [23.981019687483506]
閉形式ラプラシアピラミッドの分解と再構成に基づく高分解能フォトリアリスティックI2ITタスクの高速化に着目する。
この2つのタスクを同時に実行するために,ラプラシアンピラミッド翻訳ネットワーク(N)を提案する。
我々のモデルは高解像度の特徴写像を処理し、画像の詳細を忠実に保存することで消費される重い計算の大部分を回避している。
論文 参考訳(メタデータ) (2021-05-19T15:05:22Z) - Aggregated Contextual Transformations for High-Resolution Image
Inpainting [57.241749273816374]
画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
論文 参考訳(メタデータ) (2021-04-03T15:50:17Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。