論文の概要: Improved Masked Image Generation with Token-Critic
- arxiv url: http://arxiv.org/abs/2209.04439v1
- Date: Fri, 9 Sep 2022 17:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:52:50.907499
- Title: Improved Masked Image Generation with Token-Critic
- Title(参考訳): Token-Criticによるマスク画像生成の改善
- Authors: Jos\'e Lezama, Huiwen Chang, Lu Jiang, Irfan Essa
- Abstract要約: 本稿では,非自己回帰型生成変換器のサンプリングを誘導する補助モデルであるToken-Criticを紹介する。
最先端の生成変換器は、その性能を著しく向上させ、生成した画像品質と多様性のトレードオフの観点から、最近の拡散モデルやGANよりも優れている。
- 参考スコア(独自算出の注目度): 16.749458173904934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive generative transformers recently demonstrated impressive
image generation performance, and orders of magnitude faster sampling than
their autoregressive counterparts. However, optimal parallel sampling from the
true joint distribution of visual tokens remains an open challenge. In this
paper we introduce Token-Critic, an auxiliary model to guide the sampling of a
non-autoregressive generative transformer. Given a masked-and-reconstructed
real image, the Token-Critic model is trained to distinguish which visual
tokens belong to the original image and which were sampled by the generative
transformer. During non-autoregressive iterative sampling, Token-Critic is used
to select which tokens to accept and which to reject and resample. Coupled with
Token-Critic, a state-of-the-art generative transformer significantly improves
its performance, and outperforms recent diffusion models and GANs in terms of
the trade-off between generated image quality and diversity, in the challenging
class-conditional ImageNet generation.
- Abstract(参考訳): 最近、非自己回帰生成変換器は、印象的な画像生成性能を示し、自己回帰変換器よりも桁違いに高速なサンプリングを行った。
しかし、視覚トークンの真の結合分布からの最適な並列サンプリングは、未解決の課題である。
本稿では,非自己回帰生成変換器のサンプリングを誘導する補助モデルであるToken-Criticを紹介する。
マスクと再構成された実画像が与えられると、トークン批判モデルは、どの視覚トークンが元の画像に属し、どれが生成トランスフォーマーによってサンプリングされたかを識別するために訓練される。
非自己回帰的な反復サンプリングでは、どのトークンを受け入れるか、どれを拒否するか、どれをサンプルするかを選択するためにtoken-criticが使用される。
Token-Criticと組み合わせることで、最先端の生成変換器の性能が大幅に向上し、画像品質と多様性のトレードオフの観点から最近の拡散モデルやGANよりも優れている。
関連論文リスト
- ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Generator Born from Classifier [66.56001246096002]
データサンプルに頼ることなく、イメージジェネレータを再構築することを目指している。
本稿では,ネットワークパラメータの収束条件を満たすために,ジェネレータを訓練する新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-05T03:41:17Z) - Bridging the Gap between Synthetic and Authentic Images for Multimodal
Machine Translation [51.37092275604371]
マルチモーダル機械翻訳(MMT)は、ソース文と関連する画像を同時に翻訳の入力とする。
近年の研究では、画像入力のための強力なテキスト・画像生成モデルが提案されている。
しかし、これらのモデルによって生成された合成画像は、実際の画像と比較して異なる分布を辿ることが多い。
論文 参考訳(メタデータ) (2023-10-20T09:06:30Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Style-Guided Inference of Transformer for High-resolution Image
Synthesis [4.974890682815778]
トランスフォーマーは自己回帰画像合成に極めて適している。
本稿では,変換器を再学習することなく,所望の出力,スタイルイメージを付加条件として扱うことを提案する。
論文 参考訳(メタデータ) (2022-10-11T15:21:20Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文 参考訳(メタデータ) (2021-05-13T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。