論文の概要: Style-Guided Inference of Transformer for High-resolution Image
Synthesis
- arxiv url: http://arxiv.org/abs/2210.05533v1
- Date: Tue, 11 Oct 2022 15:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:30:15.202726
- Title: Style-Guided Inference of Transformer for High-resolution Image
Synthesis
- Title(参考訳): 高分解能画像合成のための変圧器のスタイルガイド推論
- Authors: Jonghwa Yim, Minjae Kim
- Abstract要約: トランスフォーマーは自己回帰画像合成に極めて適している。
本稿では,変換器を再学習することなく,所望の出力,スタイルイメージを付加条件として扱うことを提案する。
- 参考スコア(独自算出の注目度): 4.974890682815778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer is eminently suitable for auto-regressive image synthesis which
predicts discrete value from the past values recursively to make up full image.
Especially, combined with vector quantised latent representation, the
state-of-the-art auto-regressive transformer displays realistic high-resolution
images. However, sampling the latent code from discrete probability
distribution makes the output unpredictable. Therefore, it requires to generate
lots of diverse samples to acquire desired outputs. To alleviate the process of
generating lots of samples repetitively, in this article, we propose to take a
desired output, a style image, as an additional condition without re-training
the transformer. To this end, our method transfers the style to a probability
constraint to re-balance the prior, thereby specifying the target distribution
instead of the original prior. Thus, generated samples from the re-balanced
prior have similar styles to reference style. In practice, we can choose either
an image or a category of images as an additional condition. In our qualitative
assessment, we show that styles of majority of outputs are similar to the input
style.
- Abstract(参考訳): トランスフォーマーは、過去の値から離散値を再帰的に予測してフルイメージを構成する自動回帰画像合成に極めて適している。
特に、ベクトル量子化潜在表現と組み合わせて、最先端の自己回帰変換器は現実的な高解像度画像を表示する。
しかし、離散確率分布から潜在コードをサンプリングすると、出力は予測不能となる。
そのため、望ましい出力を得るためには多様なサンプルを生成する必要がある。
本稿では, 多数のサンプルを反復的に生成するプロセスを軽減するため, 変換器を再学習することなく, 所望の出力, スタイルイメージを付加条件として取ることを提案する。
この目的のために,本手法では,提案手法のスタイルを確率制約に転送し,前者ではなく目標分布を指定する。
このように、以前の再バランスから生成されたサンプルは参照スタイルと類似したスタイルを持つ。
実際には、追加条件として画像または画像のカテゴリを選択することができる。
質的評価では、出力の大多数のスタイルが入力スタイルに類似していることが示される。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Generator Born from Classifier [66.56001246096002]
データサンプルに頼ることなく、イメージジェネレータを再構築することを目指している。
本稿では,ネットワークパラメータの収束条件を満たすために,ジェネレータを訓練する新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-05T03:41:17Z) - Hierarchical Vector Quantized Transformer for Multi-class Unsupervised
Anomaly Detection [24.11900895337062]
教師なし画像異常検出(UAD)は、正常サンプルの堅牢かつ識別的な表現を学習することを目的としている。
本稿では,複数のクラスに統一されたフレームワークを構築することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-22T08:20:33Z) - Bridging the Gap between Synthetic and Authentic Images for Multimodal
Machine Translation [51.37092275604371]
マルチモーダル機械翻訳(MMT)は、ソース文と関連する画像を同時に翻訳の入力とする。
近年の研究では、画像入力のための強力なテキスト・画像生成モデルが提案されている。
しかし、これらのモデルによって生成された合成画像は、実際の画像と比較して異なる分布を辿ることが多い。
論文 参考訳(メタデータ) (2023-10-20T09:06:30Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Improved Masked Image Generation with Token-Critic [16.749458173904934]
本稿では,非自己回帰型生成変換器のサンプリングを誘導する補助モデルであるToken-Criticを紹介する。
最先端の生成変換器は、その性能を著しく向上させ、生成した画像品質と多様性のトレードオフの観点から、最近の拡散モデルやGANよりも優れている。
論文 参考訳(メタデータ) (2022-09-09T17:57:21Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Unleashing Transformers: Parallel Token Prediction with Discrete
Absorbing Diffusion for Fast High-Resolution Image Generation from
Vector-Quantized Codes [15.881911863960774]
最近のベクトル量子化画像モデルは、画像解像度の制限を克服しているが、前者からの要素ワイド自己回帰サンプリングを通じてトークンを生成するため、明らかに遅く一方向である。
本稿では,制約のないトランスフォーマーアーキテクチャをバックボーンとして使用することにより,ベクトル量子化トークンの並列予測を可能にする,新しい離散拡散確率モデルを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:55:14Z) - High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文 参考訳(メタデータ) (2021-05-13T17:56:07Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Generating Images with Sparse Representations [21.27273495926409]
画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-05T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。