論文の概要: C3Net: Compound Conditioned ControlNet for Multimodal Content Generation
- arxiv url: http://arxiv.org/abs/2311.17951v1
- Date: Wed, 29 Nov 2023 07:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:39:28.625792
- Title: C3Net: Compound Conditioned ControlNet for Multimodal Content Generation
- Title(参考訳): C3Net:マルチモーダルコンテンツ生成のための複合条件制御ネット
- Authors: Juntao Zhang, Yuehuai Liu, Yu-Wing Tai, Chi-Keung Tang
- Abstract要約: Compound Conditioned ControlNet, C3Netは、複数のモードから条件を同時に取り出す新しい生成ニューラルアーキテクチャである。
C3Netは、ControlNetアーキテクチャを適用して、プロダクション対応の拡散モデルで共同でトレーニングし、推論する。
- 参考スコア(独自算出の注目度): 67.5090755991599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Compound Conditioned ControlNet, C3Net, a novel generative neural
architecture taking conditions from multiple modalities and synthesizing
multimodal contents simultaneously (e.g., image, text, audio). C3Net adapts the
ControlNet architecture to jointly train and make inferences on a
production-ready diffusion model and its trainable copies. Specifically, C3Net
first aligns the conditions from multi-modalities to the same semantic latent
space using modality-specific encoders based on contrastive training. Then, it
generates multimodal outputs based on the aligned latent space, whose semantic
information is combined using a ControlNet-like architecture called Control
C3-UNet. Correspondingly, with this system design, our model offers an improved
solution for joint-modality generation through learning and explaining
multimodal conditions instead of simply taking linear interpolations on the
latent space. Meanwhile, as we align conditions to a unified latent space,
C3Net only requires one trainable Control C3-UNet to work on multimodal
semantic information. Furthermore, our model employs unimodal pretraining on
the condition alignment stage, outperforming the non-pretrained alignment even
on relatively scarce training data and thus demonstrating high-quality compound
condition generation. We contribute the first high-quality tri-modal validation
set to validate quantitatively that C3Net outperforms or is on par with first
and contemporary state-of-the-art multimodal generation. Our codes and
tri-modal dataset will be released.
- Abstract(参考訳): マルチモーダルコンテンツ(画像,テキスト,音声など)を同時に合成し,複数のモーダルから条件を抽出する新しい生成型ニューラルアーキテクチャである複合条件制御ネットC3Netを提案する。
c3net は controlnet アーキテクチャを採用して,プロダクション対応の拡散モデルとそのトレーニング可能なコピーを共同でトレーニングし,推論する。
具体的には、C3Netはまず、マルチモーダル性からコントラストトレーニングに基づくモダリティ固有のエンコーダを用いて、同じセマンティック潜在空間に条件をアライメントする。
次に,C3-UNet と呼ばれる ControlNet のようなアーキテクチャを用いてセマンティック情報を結合した,アライメントされた潜在空間に基づくマルチモーダル出力を生成する。
このシステム設計では, 線形補間ではなく, 学習や多モード条件の説明を通じて, 共同モダリティ生成のための改良されたソリューションが提供される。
一方、条件を統一された潜在空間に合わせるため、C3Netはマルチモーダルなセマンティック情報を扱うためにトレーニング可能なC3-UNetのみを必要とする。
さらに, 条件アライメント段階においてユニモーダル事前トレーニングを行い, 比較的少ない訓練データでも非訓練アライメントを上回り, 高品質な複合条件生成を実現する。
我々は、c3netが第1次および第2次マルチモーダル世代に匹敵する、あるいは同等であるかどうかを定量的に検証する、最初の高品質なトライモーダル検証セットを寄贈する。
コードとトリモーダルデータセットがリリースされます。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - YOLOO: You Only Learn from Others Once [43.46068978805732]
我々は,新しいマルチモーダル3DMOTパラダイムである textbyoLOO を提案する。
YOLOOはポイントクラウドエンコーダに、ポイントクラウドや他のモダリティ(画像やテキストキューなど)から統一されたトリモーダル表現(UTR)を一度に学習する権限を与える。
特に、YOLOOは、2つのコアコンポーネント: 統一三モードエンコーダ(UTEnc)とフレキシブルな幾何学的制約(F-GC)モジュール。
論文 参考訳(メタデータ) (2024-09-01T05:09:32Z) - S3: A Simple Strong Sample-effective Multimodal Dialog System [61.31055673156622]
本稿では,多モーダルダイアログタスクであるS3モデルに対して,概念的にシンプルだが強力なベースラインを提案する。
このシステムは、訓練済みの大規模言語モデル、画像とオーディオのための訓練済みのモダリティエンコーダ、および訓練可能なモダリティプロジェクタに基づいている。
論文 参考訳(メタデータ) (2024-06-26T12:45:43Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - Any-to-Any Generation via Composable Diffusion [111.94094932032205]
Composable Diffusion (CoDi) は、出力モダリティの組み合わせを生成できる新しい生成モデルである。
CoDiは複数のモダリティを並列に生成することができ、その入力はテキストや画像のようなモダリティのサブセットに制限されない。
高度にカスタマイズ可能でフレキシブルなCoDiは、強力なジョイントモダリティ生成品質を実現する。
論文 参考訳(メタデータ) (2023-05-19T17:38:32Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Knowledge Perceived Multi-modal Pretraining in E-commerce [12.012793707741562]
画像とテキストのモダリティに対する現在のマルチモーダル事前学習法は、モダリティの欠如やモダリティノイズに直面して頑健さを欠いている。
我々は,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補うK3Mを提案する。
論文 参考訳(メタデータ) (2021-08-20T08:01:28Z) - SrvfNet: A Generative Network for Unsupervised Multiple Diffeomorphic
Shape Alignment [6.404122934568859]
SrvfNetは、関数データの大規模なコレクションを複数アライメントする、ジェネレーティブなディープラーニングフレームワークである。
提案するフレームワークは完全に教師なしであり,事前定義されたテンプレートに整合すると同時に,データから最適なテンプレートを共同で予測することができる。
我々は, 磁気共鳴画像(MRI)データからの拡散プロファイルだけでなく, 合成データ上で検証することで, フレームワークの強度を実証する。
論文 参考訳(メタデータ) (2021-04-27T19:49:46Z) - Densely connected multidilated convolutional networks for dense
prediction tasks [25.75557472306157]
密結合多重化DenseNet(D3Net)と呼ばれる新しいCNNアーキテクチャを提案する。
D3Netは、異なる解像度を同時にモデル化するために単一の層に異なる拡張因子を持つ新しい多重化畳み込みを含む。
Cityscapes を用いた画像セマンティックセグメンテーションタスクと MUSDB18 を用いた音源分離タスクの実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-11-21T05:15:12Z) - D3Net: Densely connected multidilated DenseNet for music source
separation [25.75557472306157]
音源分離は、音声信号の長期依存をモデル化するための大きな入力フィールドを含む。
従来の畳み込みニューラルネットワーク(CNN)ベースのアプローチは、シーケンシャルにダウンサンプリングされた特徴マップや拡張畳み込みを使用した大規模な入力フィールドモデリングに対処する。
密結合拡張DenseNet(D3Net)と呼ばれる新しいCNNアーキテクチャを提案する。
D3Netは6.01dBの平均信号対歪み比(SDR)で最先端の性能を達成する。
論文 参考訳(メタデータ) (2020-10-05T01:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。