論文の概要: Score-Based Multimodal Autoencoders
- arxiv url: http://arxiv.org/abs/2305.15708v1
- Date: Thu, 25 May 2023 04:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:22:51.942140
- Title: Score-Based Multimodal Autoencoders
- Title(参考訳): スコアベースマルチモーダルオートエンコーダ
- Authors: Daniel Wesego and Amirmohammad Rooshenas
- Abstract要約: マルチモーダル変分オートエンコーダ(VAEs)は、複数のモダリティを与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。
本研究では, マルチモーダルVAEの生成性能を高めるための代替手法について検討した。
本モデルでは,単調なVAEの優れた生成品質と,異なるモダリティをまたいだコヒーレントな統合を組み合わせた。
- 参考スコア(独自算出の注目度): 4.594159253008448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Variational Autoencoders (VAEs) represent a promising group of
generative models that facilitate the construction of a tractable posterior
within the latent space, given multiple modalities. Daunhawer et al. (2022)
demonstrate that as the number of modalities increases, the generative quality
of each modality declines. In this study, we explore an alternative approach to
enhance the generative performance of multimodal VAEs by jointly modeling the
latent space of unimodal VAEs using score-based models (SBMs). The role of the
SBM is to enforce multimodal coherence by learning the correlation among the
latent variables. Consequently, our model combines the superior generative
quality of unimodal VAEs with coherent integration across different modalities.
- Abstract(参考訳): マルチモーダル変分オートエンコーダ (VAEs) は、複数のモダリティが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする生成モデルの有望なグループである。
daunhawer et al. (2022) は、モダリティの数が増えるにつれて、各モダリティの生成的品質が低下することを示した。
本研究では, スコアベースモデル(sbms)を用いて, ユニモーダルvaesの潜在空間を共同でモデル化し, マルチモーダルvaesの生成性能を向上させるための代替手法を検討する。
SBMの役割は、潜伏変数間の相関を学習することでマルチモーダルコヒーレンスを強制することである。
その結果,本モデルでは,単調なVAEの優れた生成品質と,異なるモダリティのコヒーレントな統合を組み合わせている。
関連論文リスト
- Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - A Markov Random Field Multi-Modal Variational AutoEncoder [1.2233362977312945]
この研究は、マルコフランダム場(MRF)を前と後の両方の分布に組み込む新しいマルチモーダルVAEを導入する。
我々のアプローチは、これらの関係の複雑さをモデル化し、活用することを目的としており、マルチモーダルデータのより忠実な表現を可能にしている。
論文 参考訳(メタデータ) (2024-08-18T19:27:30Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。
本研究では,データログ類似度を厳密に近似できる変動目標について考察する。
我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2023-09-01T10:32:21Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - On the Limitations of Multimodal VAEs [9.449650062296824]
マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。
弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
論文 参考訳(メタデータ) (2021-10-08T13:28:28Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。