論文の概要: Multimodal Variational Autoencoders for Semi-Supervised Learning: In
Defense of Product-of-Experts
- arxiv url: http://arxiv.org/abs/2101.07240v1
- Date: Mon, 18 Jan 2021 18:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 09:37:27.856837
- Title: Multimodal Variational Autoencoders for Semi-Supervised Learning: In
Defense of Product-of-Experts
- Title(参考訳): 半教師付き学習のためのマルチモーダル変分オートエンコーダ--製品・オブ・エキスパートの擁護
- Authors: Svetlana Kutuzova, Oswin Krause, Douglas McCloskey, Mads Nielsen,
Christian Igel
- Abstract要約: 所望の特性を持つ多変量オートエンコーダの製品群(PoE)を評価した。
経験的評価は、PoEベースのモデルが添加性混合(MoE)アプローチより優れていることを示している。
- 参考スコア(独自算出の注目度): 15.53942454688811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal generative models should be able to learn a meaningful latent
representation that enables a coherent joint generation of all modalities
(e.g., images and text). Many applications also require the ability to
accurately sample modalities conditioned on observations of a subset of the
modalities. Often not all modalities may be observed for all training data
points, so semi-supervised learning should be possible. In this study, we
evaluate a family of product-of-experts (PoE) based variational autoencoders
that have these desired properties. We include a novel PoE based architecture
and training procedure. An empirical evaluation shows that the PoE based models
can outperform an additive mixture-of-experts (MoE) approach. Our experiments
support the intuition that PoE models are more suited for a conjunctive
combination of modalities while MoEs are more suited for a disjunctive fusion.
- Abstract(参考訳): マルチモーダル生成モデルは、すべてのモダリティ(画像やテキストなど)のコヒーレントな共同生成を可能にする有意義な潜在表現を学べるべきである。
多くの応用では、モダリティのサブセットの観測で条件付けられたモダリティを正確にサンプリングする能力も必要である。
すべてのトレーニングデータポイントですべてのモダリティが観測されるわけではないため、半教師付き学習が可能となる。
本研究では,これらの特性を持つ多変量オートエンコーダの製品群(PoE)を評価する。
我々は新しいpoeベースのアーキテクチャとトレーニング手順を含む。
経験的評価は、PoEベースのモデルが添加性混合(MoE)アプローチより優れていることを示している。
我々の実験は、PoEモデルがモジュラリティの共役結合に適しているのに対して、MoEは接合融合に適しているという直感を支持する。
- 全文 参考訳へのリンク
関連論文リスト
- DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language
Models [37.88287077119201]
PLMのための新しいモデル再利用パラダイムであるKnowledge Amalgamation(KA)を提案する。
KAは、人間のアノテーションを使用せずに、異なる分類問題に特化している異なる教師-PLMの知識を、汎用的な学生モデルにマージすることを目的としている。
実験の結果,MUKAはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2021-12-14T12:26:24Z) - MetaQA: Combining Expert Agents for Multi-Skill Question Answering [49.35261724460689]
マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とするかもしれません。
本稿では,専門家エージェントと,質問,回答予測,回答予測信頼度スコアを考慮した,新しい,柔軟な,学習効率の高いアーキテクチャを組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-12-03T14:05:52Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z) - Directly Training Joint Energy-Based Models for Conditional Synthesis
and Calibrated Prediction of Multi-Attribute Data [9.389098132764431]
マルチ属性予測のためのアーキテクチャは,エネルギーモデルとして再解釈可能であることを示す。
本研究では,ESMの精度を向上し,正確な条件付きサンプルを生成するための簡単な拡張を提案する。
我々のモデルは、正確で校正された予測と、新しい属性の組み合わせの高品質な条件合成の両方が可能である。
論文 参考訳(メタデータ) (2021-07-19T22:19:41Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z) - Generalized Multimodal ELBO [11.602089225841631]
複数のデータ型は、現実世界の現象を記述し、そこから学習する際に自然に共起する。
ELBOを近似する既存の自己制御生成モデルは、マルチモーダルモデルのすべての要求を満たすことができない。
これらの制限を克服したマルチモーダルデータのための新しい一般化ELBO定式化を提案する。
論文 参考訳(メタデータ) (2021-05-06T07:05:00Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。