論文の概要: Efficient Multimodal Diffusion Models Using Joint Data Infilling with
Partially Shared U-Net
- arxiv url: http://arxiv.org/abs/2311.16488v1
- Date: Tue, 28 Nov 2023 04:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:14:14.489370
- Title: Efficient Multimodal Diffusion Models Using Joint Data Infilling with
Partially Shared U-Net
- Title(参考訳): 部分共有u-netを用いたジョイントデータインフィルメントを用いた効率的なマルチモーダル拡散モデル
- Authors: Zizhao Hu, Shaochong Jia, Mohammad Rostami
- Abstract要約: 部分共有U-Net (PS-U-Net) は、テキストと画像の入力を専用層を通過させ、モダリティ固有の細かな詳細を保存するためのスキップ接続を可能にする効率的なマルチモーダル拡散モデルである。
また,画像インパインティングに着想を得て,簡単な関節分布の学習を必要とせず,条件付き生成の新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。
我々はMS-COCOデータセットを実験的に探索し,既存のマルチモーダル拡散モデルと比較して高画質のマルチモーダルテキストと画像データを生成することを示した。
- 参考スコア(独自算出の注目度): 20.437172251393257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, diffusion models have been used successfully to fit distributions
for cross-modal data translation and multimodal data generation. However, these
methods rely on extensive scaling, overlooking the inefficiency and
interference between modalities. We develop Partially Shared U-Net (PS-U-Net)
architecture which is an efficient multimodal diffusion model that allows text
and image inputs to pass through dedicated layers and skip-connections for
preserving modality-specific fine-grained details. Inspired by image
inpainting, we also propose a new efficient multimodal sampling method that
introduces new scenarios for conditional generation while only requiring a
simple joint distribution to be learned. Our empirical exploration of the
MS-COCO dataset demonstrates that our method generates multimodal text and
image data with higher quality compared to existing multimodal diffusion models
while having a comparable size, faster training, faster multimodal sampling,
and more flexible generation.
- Abstract(参考訳): 近年,クロスモーダルデータ変換やマルチモーダルデータ生成のための分散に適合する拡散モデルが提案されている。
しかし、これらの手法は広範なスケーリングに依存しており、非効率性やモダリティ間の干渉を見越している。
我々は,テキストと画像の入力が専用レイヤを通過することを可能にする効率的なマルチモーダル拡散モデルである部分共有型u-net (ps-u-net) アーキテクチャを開発した。
画像インパインティングに触発されて,単純なジョイント分布のみを学習しながら条件付き生成のための新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。
我々のMS-COCOデータセットを実験的に調べたところ、本手法は既存のマルチモーダル拡散モデルと比較して高い品質でマルチモーダルテキストと画像データを生成する一方で、より高速なトレーニング、高速なマルチモーダルサンプリング、より柔軟な生成を行う。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - HMDN: Hierarchical Multi-Distribution Network for Click-Through Rate Prediction [26.32695178700689]
階層型マルチディストリビューションネットワーク(HMDN)というフレキシブルなモデリングパラダイムを提案する。
HMDNは、混合マルチディストリビューションを効率的にモデル化し、既存のマルチディストリビューション手法とシームレスに統合することができる。
HMDNの有効性と柔軟性は,公立および工業用両方のデータセットで実験的に検証された。
論文 参考訳(メタデータ) (2024-08-02T15:29:59Z) - Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - Learning more expressive joint distributions in multimodal variational
methods [0.17188280334580194]
正規化フローを用いたマルチモーダル変分法の表現能力を向上させる手法を提案する。
このモデルは,様々なコンピュータビジョンタスクの変動推論に基づいて,最先端のマルチモーダル手法を改善することを実証する。
また, より強力な近似関節分布の学習により, 生成した試料の品質が向上することを示した。
論文 参考訳(メタデータ) (2020-09-08T11:45:27Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。