論文の概要: Score-Based Multimodal Autoencoders
- arxiv url: http://arxiv.org/abs/2305.15708v1
- Date: Thu, 25 May 2023 04:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:22:51.942140
- Title: Score-Based Multimodal Autoencoders
- Title(参考訳): スコアベースマルチモーダルオートエンコーダ
- Authors: Daniel Wesego and Amirmohammad Rooshenas
- Abstract要約: マルチモーダル変分オートエンコーダ(VAEs)は、複数のモダリティを与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。
本研究では, マルチモーダルVAEの生成性能を高めるための代替手法について検討した。
本モデルでは,単調なVAEの優れた生成品質と,異なるモダリティをまたいだコヒーレントな統合を組み合わせた。
- 参考スコア(独自算出の注目度): 4.594159253008448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Variational Autoencoders (VAEs) represent a promising group of
generative models that facilitate the construction of a tractable posterior
within the latent space, given multiple modalities. Daunhawer et al. (2022)
demonstrate that as the number of modalities increases, the generative quality
of each modality declines. In this study, we explore an alternative approach to
enhance the generative performance of multimodal VAEs by jointly modeling the
latent space of unimodal VAEs using score-based models (SBMs). The role of the
SBM is to enforce multimodal coherence by learning the correlation among the
latent variables. Consequently, our model combines the superior generative
quality of unimodal VAEs with coherent integration across different modalities.
- Abstract(参考訳): マルチモーダル変分オートエンコーダ (VAEs) は、複数のモダリティが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする生成モデルの有望なグループである。
daunhawer et al. (2022) は、モダリティの数が増えるにつれて、各モダリティの生成的品質が低下することを示した。
本研究では, スコアベースモデル(sbms)を用いて, ユニモーダルvaesの潜在空間を共同でモデル化し, マルチモーダルvaesの生成性能を向上させるための代替手法を検討する。
SBMの役割は、潜伏変数間の相関を学習することでマルチモーダルコヒーレンスを強制することである。
その結果,本モデルでは,単調なVAEの優れた生成品質と,異なるモダリティのコヒーレントな統合を組み合わせている。
関連論文リスト
- Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Learning multi-modal generative models with permutation-invariant
encoders and tighter variational bounds [6.062751776009752]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。
本研究では、データログのような境界を厳格に下げることができる変動境界について考察する。
我々は、異なるモダリティから符号化された特徴を組み合わせることで、PoE や MoE のアプローチを一般化するより柔軟なアグリゲーションスキームを開発する。
論文 参考訳(メタデータ) (2023-09-01T10:32:21Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Improving Multimodal Joint Variational Autoencoders through Normalizing
Flows and Correlation Analysis [0.0]
一方向後部はディープ・カノニカル・相関解析(英語版)の埋め込みで条件付けされている。
また、正規化フローを使用して、単調な後部を豊かにし、より多様なデータ生成を実現しています。
論文 参考訳(メタデータ) (2023-05-19T17:15:34Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - On the Limitations of Multimodal VAEs [9.449650062296824]
マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。
弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
論文 参考訳(メタデータ) (2021-10-08T13:28:28Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。