論文の概要: A survey of multimodal deep generative models
- arxiv url: http://arxiv.org/abs/2207.02127v1
- Date: Tue, 5 Jul 2022 15:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 13:55:38.877759
- Title: A survey of multimodal deep generative models
- Title(参考訳): 多モード深部生成モデルの検討
- Authors: Masahiro Suzuki, Yutaka Matsuo
- Abstract要約: マルチモーダル学習は、様々なタイプのモダリティに基づいて予測を行うモデルを構築するためのフレームワークである。
ディープニューラルネットワークによって分布がパラメータ化されるディープジェネレーティブモデルが注目されている。
- 参考スコア(独自算出の注目度): 20.717591403306287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning is a framework for building models that make predictions
based on different types of modalities. Important challenges in multimodal
learning are the inference of shared representations from arbitrary modalities
and cross-modal generation via these representations; however, achieving this
requires taking the heterogeneous nature of multimodal data into account. In
recent years, deep generative models, i.e., generative models in which
distributions are parameterized by deep neural networks, have attracted much
attention, especially variational autoencoders, which are suitable for
accomplishing the above challenges because they can consider heterogeneity and
infer good representations of data. Therefore, various multimodal generative
models based on variational autoencoders, called multimodal deep generative
models, have been proposed in recent years. In this paper, we provide a
categorized survey of studies on multimodal deep generative models.
- Abstract(参考訳): マルチモーダル学習は、様々なタイプのモダリティに基づいて予測を行うモデルを構築するためのフレームワークである。
マルチモーダル学習における重要な課題は、任意のモダリティとこれらの表現によるクロスモーダル生成からの共有表現の推論であるが、これを実現するには、マルチモーダルデータの異種性を考慮する必要がある。
近年、分布がディープニューラルネットワークによってパラメータ化されるような深層生成モデル(英語版)が注目され、特に変分オートエンコーダは、不均一性を考慮し、データの良好な表現を推測できるため、上記の課題を達成するのに適したものである。
そのため,近年,マルチモーダル深層生成モデルと呼ばれる変分オートエンコーダに基づくマルチモーダル生成モデルが提案されている。
本稿では,マルチモーダル深層生成モデルの研究の分類調査を行う。
関連論文リスト
- Explaining latent representations of generative models with large
multimodal models [6.427214952260913]
データ生成潜在因子の解釈可能な表現を学習することは、人工知能の発展にとって重要なトピックである。
本稿では,大規模マルチモーダルモデルを用いて,生成モデルにおける各潜在因子を包括的に説明する枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-02T19:28:33Z) - Learning multi-modal generative models with permutation-invariant
encoders and tighter variational bounds [6.062751776009752]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。
本研究では、データログのような境界を厳格に下げることができる変動境界について考察する。
我々は、異なるモダリティから符号化された特徴を組み合わせることで、PoE や MoE のアプローチを一般化するより柔軟なアグリゲーションスキームを開発する。
論文 参考訳(メタデータ) (2023-09-01T10:32:21Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [69.03538086844516]
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。
次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Deep Variational Models for Collaborative Filtering-based Recommender
Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。
提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。
提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-27T08:59:39Z) - Variational Dynamic Mixtures [18.730501689781214]
逐次潜伏変数を推定するための変分動的混合(VDM)を開発した。
実証実験により、VDMは、高マルチモーダルデータセットにおける競合するアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-20T16:10:07Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。