論文の概要: ShaLa: Multimodal Shared Latent Space Modelling
- arxiv url: http://arxiv.org/abs/2508.17376v1
- Date: Sun, 24 Aug 2025 14:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.491841
- Title: ShaLa: Multimodal Shared Latent Space Modelling
- Title(参考訳): ShaLa:マルチモーダル共有ラテント・スペース・モデリング
- Authors: Jiali Cui, Yan-Ying Chen, Yanxia Zhang, Matthew Klenk,
- Abstract要約: 本稿では,マルチモーダルデータ間の共有潜在表現を学習するための新しい生成フレームワークを提案する。
ShaLaは、新しいアーキテクチャ推論モデルと第2ステージの表現拡散を前もって統合する。
複数のベンチマークでShaLaを広範囲に検証し、最先端のマルチモーダルVAEと比較してコヒーレンスと合成品質が優れていることを示した。
- 参考スコア(独自算出の注目度): 10.281285931976916
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper presents a novel generative framework for learning shared latent representations across multimodal data. Many advanced multimodal methods focus on capturing all combinations of modality-specific details across inputs, which can inadvertently obscure the high-level semantic concepts that are shared across modalities. Notably, Multimodal VAEs with low-dimensional latent variables are designed to capture shared representations, enabling various tasks such as joint multimodal synthesis and cross-modal inference. However, multimodal VAEs often struggle to design expressive joint variational posteriors and suffer from low-quality synthesis. In this work, ShaLa addresses these challenges by integrating a novel architectural inference model and a second-stage expressive diffusion prior, which not only facilitates effective inference of shared latent representation but also significantly improves the quality of downstream multimodal synthesis. We validate ShaLa extensively across multiple benchmarks, demonstrating superior coherence and synthesis quality compared to state-of-the-art multimodal VAEs. Furthermore, ShaLa scales to many more modalities while prior multimodal VAEs have fallen short in capturing the increasing complexity of the shared latent space.
- Abstract(参考訳): 本稿では,マルチモーダルデータ間の共有潜在表現を学習するための新しい生成フレームワークを提案する。
多くの先進的マルチモーダル法は、モダリティ間で共有される高レベルのセマンティックな概念を必然的に隠蔽する、入力全体にわたるモダリティ固有の詳細の組み合わせをすべて捉えることに重点を置いている。
特に、低次元潜伏変数を持つマルチモーダルVAEは、共有表現をキャプチャして、ジョイントマルチモーダル合成やクロスモーダル推論などの様々なタスクを可能にするように設計されている。
しかし、マルチモーダルVAEは、表現力のある関節変分体の後部の設計に苦しむことが多く、低品質な合成に苦しむ。
この研究においてShaLaは、新しいアーキテクチャ推論モデルと第2段階の表現拡散を組み込むことでこれらの課題に対処し、共有潜在表現の効果的な推論を促進するだけでなく、下流マルチモーダル合成の質を大幅に改善する。
複数のベンチマークでShaLaを広範囲に検証し、最先端のマルチモーダルVAEと比較してコヒーレンスと合成品質が優れていることを示した。
さらに、ShaLaはより多くのモダリティにスケールする一方、以前のマルチモーダルVAEは共有潜在空間の複雑さの増大を捉えるのに不足している。
関連論文リスト
- DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [7.947217265041953]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Multimodal ELBO with Diffusion Decoders [0.9208007322096533]
拡散生成モデルを用いて,より優れたデコーダを組み込んだマルチモーダルVAE ELBOを提案する。
拡散デコーダにより、モデルは複雑なモダリティを学習し、高品質な出力を生成することができる。
提案モデルでは,異なるデータセットにおける他のマルチモーダルVAEと比較して,コヒーレンスが高く,生成したモダリティの品質も優れている。
論文 参考訳(メタデータ) (2024-08-29T20:12:01Z) - A Markov Random Field Multi-Modal Variational AutoEncoder [1.2233362977312945]
この研究は、マルコフランダム場(MRF)を前と後の両方の分布に組み込む新しいマルチモーダルVAEを導入する。
我々のアプローチは、これらの関係の複雑さをモデル化し、活用することを目的としており、マルチモーダルデータのより忠実な表現を可能にしている。
論文 参考訳(メタデータ) (2024-08-18T19:27:30Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。