論文の概要: Multimodal Controller for Generative Models
- arxiv url: http://arxiv.org/abs/2002.02572v7
- Date: Wed, 3 Aug 2022 05:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 03:41:49.441705
- Title: Multimodal Controller for Generative Models
- Title(参考訳): 生成モデルに対するマルチモーダル制御
- Authors: Enmao Diao, Jie Ding, Vahid Tarokh
- Abstract要約: クラス条件生成モデルは、ユーザが指定したクラスラベルからデータを生成するための重要なツールである。
本稿では,新たな学習パラメータを導入することなく,マルチモーダルデータを生成するプラグイン・アンド・プレイ・モジュール「マルチモーダル・コントローラ」を提案する。
マルチモーダル制御型生成モデルでは,条件付き生成モデルと比較して,品質が大幅に向上したクラス条件付き画像を生成することができることを示す。
- 参考スコア(独自算出の注目度): 42.365530133003816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-conditional generative models are crucial tools for data generation
from user-specified class labels. Existing approaches for class-conditional
generative models require nontrivial modifications of backbone generative
architectures to model conditional information fed into the model. This paper
introduces a plug-and-play module named `multimodal controller' to generate
multimodal data without introducing additional learning parameters. In the
absence of the controllers, our model reduces to non-conditional generative
models. We test the efficacy of multimodal controllers on CIFAR10, COIL100, and
Omniglot benchmark datasets. We demonstrate that multimodal controlled
generative models (including VAE, PixelCNN, Glow, and GAN) can generate
class-conditional images of significantly better quality when compared with
conditional generative models. Moreover, we show that multimodal controlled
models can also create novel modalities of images.
- Abstract(参考訳): クラス条件生成モデルは、ユーザが指定したクラスラベルからデータを生成するための重要なツールである。
クラス条件生成モデルに対する既存のアプローチは、モデルに供給される条件情報をモデル化するためにバックボーン生成アーキテクチャの非自明な修正を必要とする。
本稿では,「マルチモーダルコントローラ」というプラグイン・アンド・プレイモジュールを導入し,学習パラメータを付加することなくマルチモーダルデータを生成する。
コントローラがない場合、我々のモデルは非条件生成モデルに還元される。
CIFAR10, COIL100, Omniglotベンチマークデータセット上で, マルチモーダルコントローラの有効性を検証した。
マルチモーダル制御による生成モデル(vae, pixelcnn, glow, ganを含む)は,条件付き生成モデルと比較して,かなり高品質なクラス条件画像を生成することができる。
さらに,マルチモーダル制御モデルが画像の新たなモダリティを生成できることも示す。
関連論文リスト
- CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。
まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。
次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:56:27Z) - Show-o: One Single Transformer to Unify Multimodal Understanding and Generation [24.58881004205822]
マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
論文 参考訳(メタデータ) (2024-08-22T16:32:32Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。