論文の概要: Pretraining is All You Need for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2205.12952v1
- Date: Wed, 25 May 2022 17:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 15:11:53.289781
- Title: Pretraining is All You Need for Image-to-Image Translation
- Title(参考訳): 画像から画像への翻訳に必要な事前学習
- Authors: Tengfei Wang, Ting Zhang, Bo Zhang, Hao Ouyang, Dong Chen, Qifeng
Chen, Fang Wen
- Abstract要約: 画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
- 参考スコア(独自算出の注目度): 59.43151345732397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to use pretraining to boost general image-to-image translation.
Prior image-to-image translation methods usually need dedicated architectural
design and train individual translation models from scratch, struggling for
high-quality generation of complex scenes, especially when paired training data
are not abundant. In this paper, we regard each image-to-image translation
problem as a downstream task and introduce a simple and generic framework that
adapts a pretrained diffusion model to accommodate various kinds of
image-to-image translation. We also propose adversarial training to enhance the
texture synthesis in the diffusion model training, in conjunction with
normalized guidance sampling to improve the generation quality. We present
extensive empirical comparison across various tasks on challenging benchmarks
such as ADE20K, COCO-Stuff, and DIODE, showing the proposed pretraining-based
image-to-image translation (PITI) is capable of synthesizing images of
unprecedented realism and faithfulness.
- Abstract(参考訳): 画像から画像への一般的な翻訳を促進するために,事前学習を用いることを提案する。
以前のイメージ・ツー・イメージの翻訳手法では、特にペアのトレーニングデータが不足している場合、特に複雑なシーンの高品質な生成に苦慮している。
本稿では,各画像間翻訳問題を下流タスクとみなし,様々な画像間翻訳に対応するために事前学習した拡散モデルに適応する,シンプルで汎用的なフレームワークを提案する。
また, 拡散モデル学習におけるテクスチャ合成の促進を目的として, 正規化誘導サンプリングと併用して, 生成品質の向上を図る。
本研究では、ADE20K、COCO-Stuff、DIODEなどの課題に対する様々な課題に対する実験的な比較を行い、前例のないリアリズムと忠実さのイメージを合成できる事前学習ベース画像変換(PITI)を提案する。
関連論文リスト
- SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Design Booster: A Text-Guided Diffusion Model for Image Translation with
Spatial Layout Preservation [12.365230063278625]
本稿では,テキスト条件とともにレイアウト認識された画像条件を学習し,フレキシブルな画像翻訳のための新しいアプローチを提案する。
本手法は,トレーニング期間中に画像とテキストを新しい領域に符号化する。
提案手法と最先端手法との実験的比較により,本手法はスタイル画像翻訳とセマンティック画像翻訳の両方において最適であることを示す。
論文 参考訳(メタデータ) (2023-02-05T02:47:13Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Deep Translation Prior: Test-time Training for Photorealistic Style
Transfer [36.82737412912885]
近年のCNN(Deep Convolutional Neural Network)におけるフォトリアリスティックなスタイル転送の解決には,大規模データセットからの集中的なトレーニングが必要となる。
提案手法はDTP(Deep Translation Prior)とよばれる新しいフレームワークで,与えられた入力画像対とトレーニングされていないネットワークをテストタイムでトレーニングすることで,フォトリアリスティックなスタイルの転送を実現する。
論文 参考訳(メタデータ) (2021-12-12T04:54:27Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。