Fugu-MT 論文翻訳(概要): Unity by Diversity: Improved Representation Learning in Multimodal VAEs

論文の概要: Unity by Diversity: Improved Representation Learning in Multimodal VAEs

arxiv url: http://arxiv.org/abs/2403.05300v4
Date: Fri, 01 Nov 2024 10:19:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.270929
Title: Unity by Diversity: Improved Representation Learning in Multimodal VAEs
Title（参考訳）: 多様性による統一:マルチモーダルVAEにおける表現学習の改善
Authors: Thomas M. Sutter, Yang Meng, Andrea Agostini, Daphné Chopard, Norbert Fortin, Julia E. Vogt, Bahbak Shahbaba, Stephan Mandt,
Abstract要約: ハード制約をソフト制約に置き換えることで、より優れた潜伏表現が得られることを示す。既存の手法と比較して、学習した潜在表現の改善と欠落したデータモダリティの計算結果を示す。
参考スコア（独自算出の注目度）: 24.691068754720106
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Variational Autoencoders for multimodal data hold promise for many tasks in data analysis, such as representation learning, conditional generation, and imputation. Current architectures either share the encoder output, decoder input, or both across modalities to learn a shared representation. Such architectures impose hard constraints on the model. In this work, we show that a better latent representation can be obtained by replacing these hard constraints with a soft constraint. We propose a new mixture-of-experts prior, softly guiding each modality's latent representation towards a shared aggregate posterior. This approach results in a superior latent representation and allows each encoding to preserve information better from its uncompressed original features. In extensive experiments on multiple benchmark datasets and two challenging real-world datasets, we show improved learned latent representations and imputation of missing data modalities compared to existing methods.
Abstract（参考訳）: マルチモーダルデータのための変分オートエンコーダは、表現学習、条件生成、計算など、データ分析における多くのタスクを約束する。現在のアーキテクチャはエンコーダ出力を共有したり、デコーダ入力を共有したり、あるいはモダリティを越えて共有表現を学ぶ。このようなアーキテクチャは、モデルに厳しい制約を課します。本研究では,これらの制約をソフト制約に置き換えることで,より優れた潜在表現が得られることを示す。そこで本研究では,各モータリティの潜在表現を,共有集合部分に対してソフトに導出する,新しい実験混合物を提案する。このアプローチにより、より優れた潜在表現が得られ、各エンコーディングは、圧縮されていない元の特徴から情報をよりよく保存することができる。複数のベンチマークデータセットと2つの挑戦的な実世界のデータセットに関する広範な実験では、既存の手法と比較して学習された潜在表現と欠落したデータモダリティの計算が改善された。

関連論文リスト

A Shared Encoder Approach to Multimodal Representation Learning [17.863705872504]
医療領域に適したマルチモーダル表現学習のための共有エンコーダフレームワークを提案する。提案手法では,モダリティ間で共有される1組のエンコーダパラメータを用い,学習可能なモダリティ特徴を付加する。
論文参考訳（メタデータ） (2025-03-03T15:29:26Z)
IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment [17.570243718626994]
マルチモーダル・エンティティ・アライメント(MMEA)は、マルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティを識別することを目的としている。確率分布としてモーダル固有の実体表現を生成するために,多モード変分エンコーダを考案する。また、4つのモーダル固有情報ボトルネック正規化器を提案し、モーダル固有実体表現の精製における誤解を招く手がかりを限定する。
論文参考訳（メタデータ） (2024-07-27T17:12:37Z)
ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation [37.24514001359966]
連続神経場として表現される複数の形状を、従来より高い精度で符号化する方法を示す。我々は、データセット毎に1つのネットワークで、最先端のマルチシーン再構成と圧縮結果を実証する。
論文参考訳（メタデータ） (2024-06-06T17:55:34Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文参考訳（メタデータ） (2023-08-24T20:46:48Z)
Semi-supervised Multimodal Representation Learning through a Global Workspace [2.8948274245812335]
グローバルワークスペース」は2つの入力モダリティの共有表現である。このアーキテクチャは、サイクル一貫性による自己教師型トレーニングに適しています。このようなアーキテクチャは、一致したデータを必要とすることがほとんどなく、2つのモダリティを調整し、翻訳するように訓練できることを示します。
論文参考訳（メタデータ） (2023-06-27T12:41:36Z)
Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-29T20:39:36Z)
Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。 M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文参考訳（メタデータ） (2022-05-27T19:09:42Z)
Unsupervised Multimodal Language Representations using Convolutional Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文参考訳（メタデータ） (2021-10-06T18:28:07Z)
Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。そして、理論的に学習された潜在表現の多元性を証明する。
論文参考訳（メタデータ） (2020-11-12T02:29:29Z)
Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。私たちのフレームワークは、サンプル間の関係をよく保存します。サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文参考訳（メタデータ） (2020-07-11T10:57:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。