論文の概要: Multimodal Controller for Generative Models
- arxiv url: http://arxiv.org/abs/2002.02572v7
- Date: Wed, 3 Aug 2022 05:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 03:41:49.441705
- Title: Multimodal Controller for Generative Models
- Title(参考訳): 生成モデルに対するマルチモーダル制御
- Authors: Enmao Diao, Jie Ding, Vahid Tarokh
- Abstract要約: クラス条件生成モデルは、ユーザが指定したクラスラベルからデータを生成するための重要なツールである。
本稿では,新たな学習パラメータを導入することなく,マルチモーダルデータを生成するプラグイン・アンド・プレイ・モジュール「マルチモーダル・コントローラ」を提案する。
マルチモーダル制御型生成モデルでは,条件付き生成モデルと比較して,品質が大幅に向上したクラス条件付き画像を生成することができることを示す。
- 参考スコア(独自算出の注目度): 42.365530133003816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-conditional generative models are crucial tools for data generation
from user-specified class labels. Existing approaches for class-conditional
generative models require nontrivial modifications of backbone generative
architectures to model conditional information fed into the model. This paper
introduces a plug-and-play module named `multimodal controller' to generate
multimodal data without introducing additional learning parameters. In the
absence of the controllers, our model reduces to non-conditional generative
models. We test the efficacy of multimodal controllers on CIFAR10, COIL100, and
Omniglot benchmark datasets. We demonstrate that multimodal controlled
generative models (including VAE, PixelCNN, Glow, and GAN) can generate
class-conditional images of significantly better quality when compared with
conditional generative models. Moreover, we show that multimodal controlled
models can also create novel modalities of images.
- Abstract(参考訳): クラス条件生成モデルは、ユーザが指定したクラスラベルからデータを生成するための重要なツールである。
クラス条件生成モデルに対する既存のアプローチは、モデルに供給される条件情報をモデル化するためにバックボーン生成アーキテクチャの非自明な修正を必要とする。
本稿では,「マルチモーダルコントローラ」というプラグイン・アンド・プレイモジュールを導入し,学習パラメータを付加することなくマルチモーダルデータを生成する。
コントローラがない場合、我々のモデルは非条件生成モデルに還元される。
CIFAR10, COIL100, Omniglotベンチマークデータセット上で, マルチモーダルコントローラの有効性を検証した。
マルチモーダル制御による生成モデル(vae, pixelcnn, glow, ganを含む)は,条件付き生成モデルと比較して,かなり高品質なクラス条件画像を生成することができる。
さらに,マルチモーダル制御モデルが画像の新たなモダリティを生成できることも示す。
関連論文リスト
- Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - Generative Visual Prompt: Unifying Distributional Control of Pre-Trained
Generative Models [77.47505141269035]
Generative Visual Prompt (PromptGen) は、事前訓練された生成モデルの分散制御のためのフレームワークである。
PromptGenはエネルギーベースモデル(EBM)を近似し、フィードフォワード方式で画像をサンプリングする。
コードはhttps://github.com/ChenWu98/Generative-Visual-Prompt.comで入手できる。
論文 参考訳(メタデータ) (2022-09-14T22:55:18Z) - A survey of multimodal deep generative models [20.717591403306287]
マルチモーダル学習は、様々なタイプのモダリティに基づいて予測を行うモデルを構築するためのフレームワークである。
ディープニューラルネットワークによって分布がパラメータ化されるディープジェネレーティブモデルが注目されている。
論文 参考訳(メタデータ) (2022-07-05T15:48:51Z) - Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。
FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。
FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-30T23:20:33Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - PluGeN: Multi-Label Conditional Generation From Pre-Trained Models [1.4777718769290524]
PluGeNは単純だが効果的な生成技術であり、事前訓練された生成モデルのプラグインとして使用できる。
PluGeNは、ラベル付き属性の値を制御する機能を加えながら、バックボーンモデルの品質を保っていることを示す。
論文 参考訳(メタデータ) (2021-09-18T21:02:24Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。