Fugu-MT 論文翻訳(概要): Multimodal Controller for Generative Models

論文の概要: Multimodal Controller for Generative Models

arxiv url: http://arxiv.org/abs/2002.02572v7
Date: Wed, 3 Aug 2022 05:33:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 03:41:49.441705
Title: Multimodal Controller for Generative Models
Title（参考訳）: 生成モデルに対するマルチモーダル制御
Authors: Enmao Diao, Jie Ding, Vahid Tarokh
Abstract要約: クラス条件生成モデルは、ユーザが指定したクラスラベルからデータを生成するための重要なツールである。本稿では,新たな学習パラメータを導入することなく,マルチモーダルデータを生成するプラグイン・アンド・プレイ・モジュール「マルチモーダル・コントローラ」を提案する。マルチモーダル制御型生成モデルでは,条件付き生成モデルと比較して,品質が大幅に向上したクラス条件付き画像を生成することができることを示す。
参考スコア（独自算出の注目度）: 42.365530133003816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Class-conditional generative models are crucial tools for data generation from user-specified class labels. Existing approaches for class-conditional generative models require nontrivial modifications of backbone generative architectures to model conditional information fed into the model. This paper introduces a plug-and-play module named `multimodal controller' to generate multimodal data without introducing additional learning parameters. In the absence of the controllers, our model reduces to non-conditional generative models. We test the efficacy of multimodal controllers on CIFAR10, COIL100, and Omniglot benchmark datasets. We demonstrate that multimodal controlled generative models (including VAE, PixelCNN, Glow, and GAN) can generate class-conditional images of significantly better quality when compared with conditional generative models. Moreover, we show that multimodal controlled models can also create novel modalities of images.
Abstract（参考訳）: クラス条件生成モデルは、ユーザが指定したクラスラベルからデータを生成するための重要なツールである。クラス条件生成モデルに対する既存のアプローチは、モデルに供給される条件情報をモデル化するためにバックボーン生成アーキテクチャの非自明な修正を必要とする。本稿では,「マルチモーダルコントローラ」というプラグイン・アンド・プレイモジュールを導入し,学習パラメータを付加することなくマルチモーダルデータを生成する。コントローラがない場合、我々のモデルは非条件生成モデルに還元される。 CIFAR10, COIL100, Omniglotベンチマークデータセット上で, マルチモーダルコントローラの有効性を検証した。マルチモーダル制御による生成モデル(vae, pixelcnn, glow, ganを含む)は,条件付き生成モデルと比較して,かなり高品質なクラス条件画像を生成することができる。さらに,マルチモーダル制御モデルが画像の新たなモダリティを生成できることも示す。

関連論文リスト

DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging [32.97010533998294]
スタイルベクトルの制御の下で任意のスタイルの画像を正確に生成できる、スタイルプロンプタブルな画像生成パイプラインを提案する。この設計に基づいて,複数のモデルを1つの汎用T2Iモデルに圧縮する,スコア蒸留に基づくモデルマージパラダイム(DMM)を提案する。実験により、DMMは複数の教師モデルからの知識をコンパクトに再構成し、制御可能な任意のスタイルの生成を実現することができることを示した。
論文参考訳（メタデータ） (2025-04-16T15:09:45Z)
You Only Submit One Image to Find the Most Suitable Generative Model [48.67303250592189]
我々は生成モデル同定(GMI)と呼ばれる新しい設定を提案する。 GMIは、ユーザの要求に対して最も適切な生成モデルを効率的に特定できるようにすることを目的としている。
論文参考訳（メタデータ） (2024-12-16T14:46:57Z)
CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。 CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文参考訳（メタデータ） (2024-10-07T00:55:42Z)
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-30T17:56:27Z)
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation [24.58881004205822]
マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
論文参考訳（メタデータ） (2024-08-22T16:32:32Z)
ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文参考訳（メタデータ） (2024-06-14T06:35:33Z)
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文参考訳（メタデータ） (2024-01-03T16:43:47Z)
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか? 彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文参考訳（メタデータ） (2023-06-15T06:45:46Z)
Relating by Contrasting: A Data-efficient Framework for Multimodal Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文参考訳（メタデータ） (2020-07-02T15:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。