論文の概要: UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis
- arxiv url: http://arxiv.org/abs/2105.14211v1
- Date: Sat, 29 May 2021 04:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:16:16.385698
- Title: UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis
- Title(参考訳): UFC-BERT:条件付き画像合成のためのマルチモード制御の統合
- Authors: Zhu Zhang, Jianxin Ma, Chang Zhou, Rui Men, Zhikang Li, Ming Ding, Jie
Tang, Jingren Zhou, and Hongxia Yang
- Abstract要約: 条件付き画像合成は、いくつかのマルチモーダルガイダンスに従って画像を作成することを目的としている。
多数のマルチモーダル制御を統一する2段階アーキテクチャUFC-BERTを提案する。
- 参考スコア(独自算出の注目度): 65.34414353024599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional image synthesis aims to create an image according to some
multi-modal guidance in the forms of textual descriptions, reference images,
and image blocks to preserve, as well as their combinations. In this paper,
instead of investigating these control signals separately, we propose a new
two-stage architecture, UFC-BERT, to unify any number of multi-modal controls.
In UFC-BERT, both the diverse control signals and the synthesized image are
uniformly represented as a sequence of discrete tokens to be processed by
Transformer. Different from existing two-stage autoregressive approaches such
as DALL-E and VQGAN, UFC-BERT adopts non-autoregressive generation (NAR) at the
second stage to enhance the holistic consistency of the synthesized image, to
support preserving specified image blocks, and to improve the synthesis speed.
Further, we design a progressive algorithm that iteratively improves the
non-autoregressively generated image, with the help of two estimators developed
for evaluating the compliance with the controls and evaluating the fidelity of
the synthesized image, respectively. Extensive experiments on a newly collected
large-scale clothing dataset M2C-Fashion and a facial dataset Multi-Modal
CelebA-HQ verify that UFC-BERT can synthesize high-fidelity images that comply
with flexible multi-modal controls.
- Abstract(参考訳): 条件付き画像合成は、テキスト記述、参照画像、画像ブロックの形式で複数のモーダルガイダンスに従って画像を作成し、それらの組み合わせを保存することを目的としている。
本稿では,これらの制御信号を別々に調査する代わりに,複数のマルチモーダル制御を統一する新しい2段階アーキテクチャufc-bertを提案する。
ufc-bertでは、多様な制御信号と合成画像の両方がトランスフォーマによって処理される離散トークン列として一様に表現される。
DALL-EやVQGANのような既存の2段階自己回帰アプローチとは異なり、UFC-BERTは第2段階で非自己回帰生成(NAR)を採用し、合成画像の全体的一貫性を高め、特定の画像ブロックの保存をサポートし、合成速度を向上させる。
さらに,非自己回帰生成画像を反復的に改善するプログレッシブアルゴリズムを設計し,制御に対するコンプライアンスを評価し,合成画像の忠実度を評価するための2つの推定器を開発した。
新たに収集した大規模衣料品データセット m2c-fashion と顔データセット multi-modal celeba-hq の広範な実験により、ufc-bert が柔軟なマルチモーダル制御に準拠した高忠実度画像を合成できることが確認された。
関連論文リスト
- AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - STAR: Scale-wise Text-to-image generation via Auto-Regressive representations [40.66170627483643]
本稿では,スケールワイズ自動回帰パラダイムを用いたテキスト・ツー・イメージ・モデルSTARを提案する。
STARは、忠実度、画像テキストの一貫性、美的品質の点で、既存のベンチマークを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-16T03:45:45Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Bi-Modality Medical Image Synthesis Using Semi-Supervised Sequential
Generative Adversarial Networks [35.358653509217994]
本稿では,GANと半教師付き学習に基づく双方向医療画像合成手法を提案する。
提案手法は, 2つのモードの画像を逐次的に合成する2つの生成モジュールから構成される。
視覚的および定量的な結果から,本手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-27T10:39:33Z) - MMoT: Mixture-of-Modality-Tokens Transformer for Composed Multimodal
Conditional Image Synthesis [73.08923361242925]
マルチモーダル制御信号の合成を条件とした画像を生成する。
MMoT(Mixture-of-Modality-Tokens Transformer)を導入し,微細なマルチモーダル制御信号を適応的に融合する。
論文 参考訳(メタデータ) (2023-05-10T09:00:04Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z) - Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood
Estimation [54.17177006826262]
我々はImplicit Maximum Likelihood Estimation (IMLE)に基づく新しい一般条件画像合成法を開発した。
我々は,シーンレイアウトからの単一画像超解像と画像合成という,2つのタスクにおけるマルチモーダル画像合成性能の改善を実証した。
論文 参考訳(メタデータ) (2020-04-07T03:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。