論文の概要: Score-Based Multimodal Autoencoder
- arxiv url: http://arxiv.org/abs/2305.15708v2
- Date: Tue, 10 Dec 2024 14:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:34:29.461784
- Title: Score-Based Multimodal Autoencoder
- Title(参考訳): スコアベースマルチモーダルオートエンコーダ
- Authors: Daniel Wesego, Pedram Rooshenas,
- Abstract要約: マルチモーダル変分オートエンコーダ (VAEs) は、複数のモーダルが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。
これまでの研究では、モダリティの数が増えるにつれて、各モダリティの生成品質が低下することが示されている。
本研究では、独立に訓練された単調なVAEの潜伏空間を共同でモデル化することにより、マルチモーダルなVAEの生成性能を高めるための代替手法について検討する。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License:
- Abstract: Multimodal Variational Autoencoders (VAEs) represent a promising group of generative models that facilitate the construction of a tractable posterior within the latent space given multiple modalities. Previous studies have shown that as the number of modalities increases, the generative quality of each modality declines. In this study, we explore an alternative approach to enhance the generative performance of multimodal VAEs by jointly modeling the latent space of independently trained unimodal VAEs using score-based models (SBMs). The role of the SBM is to enforce multimodal coherence by learning the correlation among the latent variables. Consequently, our model combines a better generative quality of unimodal VAEs with coherent integration across different modalities using the latent score-based model. In addition, our approach provides the best unconditional coherence.
- Abstract(参考訳): マルチモーダル変分オートエンコーダ(VAEs)は、複数のモダリティが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする生成モデルの有望なグループである。
これまでの研究では、モダリティの数が増えるにつれて、各モダリティの生成品質が低下することが示されている。
本研究では、スコアベースモデル(SBM)を用いて、独立に訓練された単助詞VAEの潜在空間を共同でモデル化することにより、マルチモーダルVAEの生成性能を高めるための代替手法を検討する。
SBMの役割は、潜伏変数間の相関を学習することでマルチモーダルコヒーレンスを強制することである。
その結果、本モデルでは、単調なVAEのより優れた生成品質を、潜在スコアベースモデルを用いて異なるモード間のコヒーレントな統合と組み合わせることができた。
さらに、我々のアプローチは最高の無条件コヒーレンスを提供する。
関連論文リスト
- Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - A Markov Random Field Multi-Modal Variational AutoEncoder [1.2233362977312945]
この研究は、マルコフランダム場(MRF)を前と後の両方の分布に組み込む新しいマルチモーダルVAEを導入する。
我々のアプローチは、これらの関係の複雑さをモデル化し、活用することを目的としており、マルチモーダルデータのより忠実な表現を可能にしている。
論文 参考訳(メタデータ) (2024-08-18T19:27:30Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。
本研究では,データログ類似度を厳密に近似できる変動目標について考察する。
我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2023-09-01T10:32:21Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - On the Limitations of Multimodal VAEs [9.449650062296824]
マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。
弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
論文 参考訳(メタデータ) (2021-10-08T13:28:28Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。