論文の概要: Unity by Diversity: Improved Representation Learning in Multimodal VAEs
- arxiv url: http://arxiv.org/abs/2403.05300v1
- Date: Fri, 8 Mar 2024 13:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 19:38:50.960262
- Title: Unity by Diversity: Improved Representation Learning in Multimodal VAEs
- Title(参考訳): 多様性による統一:マルチモーダルVAEにおける表現学習の改善
- Authors: Thomas M. Sutter, Yang Meng, Norbert Fortin, Julia E. Vogt, Stephan
Mandt
- Abstract要約: ハード制約をソフト制約に置き換えることで、より優れた潜伏表現が得られることを示す。
既存の手法と比較して、学習した潜在表現の改善と欠落したデータモダリティの計算結果を示す。
- 参考スコア(独自算出の注目度): 29.106945161561065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variational Autoencoders for multimodal data hold promise for many tasks in
data analysis, such as representation learning, conditional generation, and
imputation. Current architectures either share the encoder output, decoder
input, or both across modalities to learn a shared representation. Such
architectures impose hard constraints on the model. In this work, we show that
a better latent representation can be obtained by replacing these hard
constraints with a soft constraint. We propose a new mixture-of-experts prior,
softly guiding each modality's latent representation towards a shared aggregate
posterior. This approach results in a superior latent representation and allows
each encoding to preserve information from its uncompressed original features
better. In extensive experiments on multiple benchmark datasets and a
challenging real-world neuroscience data set, we show improved learned latent
representations and imputation of missing data modalities compared to existing
methods.
- Abstract(参考訳): マルチモーダルデータのための変分オートエンコーダは、表現学習、条件生成、計算などのデータ解析における多くのタスクを約束する。
現在のアーキテクチャはエンコーダ出力を共有したり、デコーダ入力を共有したり、あるいはモダリティを越えて共有表現を学ぶ。
このようなアーキテクチャはモデルに厳しい制約を課します。
本研究では,これらのハード制約をソフト制約に置き換えることで,より優れた潜在表現が得られることを示す。
本稿では,各モダリティの潜在表現を共有アグリゲーションの後方へソフトに誘導する,前もって経験者の混合を新たに提案する。
このアプローチは、優れた潜在表現をもたらし、各エンコーディングは、圧縮されていない元の特徴から情報を保存することができる。
複数のベンチマークデータセットと挑戦的な現実世界の神経科学データセットに関する広範な実験では、既存の手法と比較して学習された潜在表現と欠落したデータモダリティの計算が改善された。
関連論文リスト
- MultiFIX: An XAI-friendly feature inducing approach to building models
from multimodal data [0.0]
MultiFIXは、新しい解釈可能性にフォーカスしたマルチモーダルデータ融合パイプラインである。
エンドツーエンドのディープラーニングアーキテクチャは、予測モデルをトレーニングするために使用されます。
悪性皮膚病変の検出のために,MultiFIXを公開データセットに適用した。
論文 参考訳(メタデータ) (2024-02-19T14:45:46Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Semi-supervised Multimodal Representation Learning through a Global
Workspace [1.6114012813668934]
グローバルワークスペース」は2つの入力モダリティの共有表現である。
このアーキテクチャは、サイクル一貫性による自己教師型トレーニングに適しています。
このようなアーキテクチャは、一致したデータを必要とすることがほとんどなく、2つのモダリティを調整し、翻訳するように訓練できることを示します。
論文 参考訳(メタデータ) (2023-06-27T12:41:36Z) - SGED: A Benchmark dataset for Performance Evaluation of Spiking Gesture
Emotion Recognition [12.396844568607522]
我々は、既存のデータセットの分析に基づいて、新しい同質なマルチモーダルジェスチャー感情認識データセットをラベル付けする。
本稿では,このデータセットに基づく擬似二重フローネットワークを提案し,このデータセットの適用可能性を検証する。
論文 参考訳(メタデータ) (2023-04-28T09:32:09Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。