論文の概要: Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers
- arxiv url: http://arxiv.org/abs/2111.03481v1
- Date: Fri, 5 Nov 2021 12:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 18:16:49.786253
- Title: Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers
- Title(参考訳): 変圧器付きトークン型発電機による画像合成の視覚品質向上
- Authors: Yanhong Zeng, Huan Yang, Hongyang Chao, Jianbo Wang, Jianlong Fu
- Abstract要約: 本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
- 参考スコア(独自算出の注目度): 51.581926074686535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new perspective of achieving image synthesis by viewing this
task as a visual token generation problem. Different from existing paradigms
that directly synthesize a full image from a single input (e.g., a latent
code), the new formulation enables a flexible local manipulation for different
image regions, which makes it possible to learn content-aware and fine-grained
style control for image synthesis. Specifically, it takes as input a sequence
of latent tokens to predict the visual tokens for synthesizing an image. Under
this perspective, we propose a token-based generator (i.e.,TokenGAN).
Particularly, the TokenGAN inputs two semantically different visual tokens,
i.e., the learned constant content tokens and the style tokens from the latent
space. Given a sequence of style tokens, the TokenGAN is able to control the
image synthesis by assigning the styles to the content tokens by attention
mechanism with a Transformer. We conduct extensive experiments and show that
the proposed TokenGAN has achieved state-of-the-art results on several
widely-used image synthesis benchmarks, including FFHQ and LSUN CHURCH with
different resolutions. In particular, the generator is able to synthesize
high-fidelity images with 1024x1024 size, dispensing with convolutions
entirely.
- Abstract(参考訳): 本稿では,このタスクを視覚トークン生成問題とみなして,画像合成の新たな視点を示す。
単一の入力(例えば潜在コード)から全画像を直接合成する既存のパラダイムとは異なり、新しい定式化により、異なる画像領域に対して柔軟な局所操作が可能となり、画像合成のためのコンテンツ認識ときめ細かいスタイル制御を学ぶことができる。
具体的には、画像合成のための視覚的トークンを予測するために、潜在トークンのシーケンスを入力する。
この観点から,トークンベースのジェネレータ(tokengan)を提案する。
特に、TokenGANは2つの意味的に異なる視覚トークン、すなわち学習された一定のコンテンツトークンと潜在空間からスタイルトークンを入力する。
一連のスタイルトークンが与えられると、tokenganはトランスフォーマによる注意機構によってコンテンツトークンにスタイルを割り当てることで画像合成を制御できる。
提案するTokenGANは,FFHQやLSUN CHURCHなど,さまざまな解像度の画像合成ベンチマークにおいて,最先端の成果を得られたことを示す。
特に、ジェネレータは1024×1024サイズで高忠実な画像を合成でき、畳み込みを完全に排除できる。
関連論文リスト
- Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文 参考訳(メタデータ) (2024-05-26T01:46:22Z) - Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting [8.572133295533643]
本稿では,離散潜在符号の生成枠組みに基づく大規模マスク多元画像の描画手法を提案する。
本手法は,画像の可視な場所でのみ計算を行うことで,トークンとして識別された遅延先行を学習する。
論文 参考訳(メタデータ) (2024-03-27T01:28:36Z) - Vision Transformers with Mixed-Resolution Tokenization [34.18534105043819]
Vision Transformer は入力画像を等サイズのパッチの空間的に規則的なグリッドに分割して処理する。
本稿では,標準均一格子をトークンの混合分解能シーケンスに置き換えた新しい画像トークン化方式を提案する。
クアドツリーアルゴリズムと新しいサリエンシースコアラを用いて、画像の低彩度領域を低解像度で処理するパッチモザイクを構築する。
論文 参考訳(メタデータ) (2023-04-01T10:39:46Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis [77.23998762763078]
画像合成のためのマルチスケール粗大な分極処理を行う特徴ピラミッド拡散モデルであるFridoについて述べる。
提案モデルでは,入力画像をスケール依存ベクトル量子化特徴に分解し,次に粗い粒度ゲーティングを用いて画像出力を生成する。
我々は、テキスト・ツー・イメージ合成、レイアウト・ツー・イメージ、シーン・トゥ・イメージ、ラベル・ツー・イメージなど、様々な無条件・条件の画像生成タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-29T17:37:29Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - CoGS: Controllable Generation and Search from Sketch and Style [35.625940819995996]
画像のスタイル条件付きスケッチ駆動合成法であるCoGSを提案する。
CoGSは、与えられたスケッチされたオブジェクトの様々な外観可能性の探索を可能にする。
新たに作成したPseudosketchesデータセットの125のオブジェクトクラスをトレーニングしたモデルでは,セマンティックコンテンツや外観スタイルの多様さが実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-17T18:36:11Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。