論文の概要: Revising Multimodal VAEs with Diffusion Decoders
- arxiv url: http://arxiv.org/abs/2408.16883v1
- Date: Thu, 29 Aug 2024 20:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 17:08:59.101468
- Title: Revising Multimodal VAEs with Diffusion Decoders
- Title(参考訳): 拡散デコーダを用いたマルチモーダルVAEの改訂
- Authors: Daniel Wesego, Amirmohammad Rooshenas,
- Abstract要約: マルチモーダルVAEは、しばしば高品質な出力を生成するのに苦労する。
中心的な問題は、潜在空間の制限された合同表現にある。
フィードフォワードデコーダは必然的にジョイント潜在空間を制約し、他のモダリティの品質も低下させる。
- 参考スコア(独自算出の注目度): 1.9413548770753526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal VAEs often struggle with generating high-quality outputs, a challenge that extends beyond the inherent limitations of the VAE framework. The core issue lies in the restricted joint representation of the latent space, particularly when complex modalities like images are involved. Feedforward decoders, commonly used for these intricate modalities, inadvertently constrain the joint latent space, leading to a degradation in the quality of the other modalities as well. Although recent studies have shown improvement by introducing modality-specific representations, the issue remains significant. In this work, we demonstrate that incorporating a flexible diffusion decoder specifically for the image modality not only enhances the generation quality of the images but also positively impacts the performance of the other modalities that rely on feedforward decoders. This approach addresses the limitations imposed by conventional joint representations and opens up new possibilities for improving multimodal generation tasks using the multimodal VAE framework. Our model provides state-of-the-art results compared to other multimodal VAEs in different datasets with higher coherence and superior quality in the generated modalities
- Abstract(参考訳): マルチモーダルなVAEは、VAEフレームワーク固有の制限を超えて、高品質なアウトプットを生成するのに苦労することが多い。
中心的な問題は、特に画像のような複雑なモジュラリティが関与する場合、潜在空間の制限された結合表現にある。
これらの複雑なモダリティに一般的に使用されるフィードフォワードデコーダは、必然的にジョイント潜在空間を制約し、他のモダリティの品質も低下させる。
近年の研究では、モダリティに特有な表現を導入することで改善が見られたが、問題は依然として顕著である。
本研究では,画像モダリティに特化してフレキシブルな拡散デコーダを組み込むことで,画像の生成品質を高めるだけでなく,フィードフォワードデコーダに依存する他のモダリティの性能にも肯定的な影響を与えることを示す。
提案手法は,従来の共同表現による制約に対処し,マルチモーダルVAEフレームワークを用いたマルチモーダル生成タスクの改善に向けた新たな可能性を開く。
我々のモデルは、異なるデータセットにおける他のマルチモーダルVAEと比較して、コヒーレンスが高く、生成したモダリティに優れた品質を持つ、最先端の結果を提供する。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - A Markov Random Field Multi-Modal Variational AutoEncoder [1.2233362977312945]
この研究は、マルコフランダム場(MRF)を前と後の両方の分布に組み込む新しいマルチモーダルVAEを導入する。
我々のアプローチは、これらの関係の複雑さをモデル化し、活用することを目的としており、マルチモーダルデータのより忠実な表現を可能にしている。
論文 参考訳(メタデータ) (2024-08-18T19:27:30Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Score-Based Multimodal Autoencoder [0.9208007322096533]
マルチモーダル変分オートエンコーダ (VAEs) は、複数のモーダルが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。
これまでの研究では、モダリティの数が増えるにつれて、各モダリティの生成品質が低下することが示されている。
本研究では、独立に訓練された単調なVAEの潜伏空間を共同でモデル化することにより、マルチモーダルなVAEの生成性能を高めるための代替手法について検討する。
論文 参考訳(メタデータ) (2023-05-25T04:43:47Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - On the Limitations of Multimodal VAEs [9.449650062296824]
マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。
弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
論文 参考訳(メタデータ) (2021-10-08T13:28:28Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。