論文の概要: Multimodal Variational Autoencoders for Semi-Supervised Learning: In
Defense of Product-of-Experts
- arxiv url: http://arxiv.org/abs/2101.07240v1
- Date: Mon, 18 Jan 2021 18:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 09:37:27.856837
- Title: Multimodal Variational Autoencoders for Semi-Supervised Learning: In
Defense of Product-of-Experts
- Title(参考訳): 半教師付き学習のためのマルチモーダル変分オートエンコーダ--製品・オブ・エキスパートの擁護
- Authors: Svetlana Kutuzova, Oswin Krause, Douglas McCloskey, Mads Nielsen,
Christian Igel
- Abstract要約: 所望の特性を持つ多変量オートエンコーダの製品群(PoE)を評価した。
経験的評価は、PoEベースのモデルが添加性混合(MoE)アプローチより優れていることを示している。
- 参考スコア(独自算出の注目度): 15.53942454688811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal generative models should be able to learn a meaningful latent
representation that enables a coherent joint generation of all modalities
(e.g., images and text). Many applications also require the ability to
accurately sample modalities conditioned on observations of a subset of the
modalities. Often not all modalities may be observed for all training data
points, so semi-supervised learning should be possible. In this study, we
evaluate a family of product-of-experts (PoE) based variational autoencoders
that have these desired properties. We include a novel PoE based architecture
and training procedure. An empirical evaluation shows that the PoE based models
can outperform an additive mixture-of-experts (MoE) approach. Our experiments
support the intuition that PoE models are more suited for a conjunctive
combination of modalities while MoEs are more suited for a disjunctive fusion.
- Abstract(参考訳): マルチモーダル生成モデルは、すべてのモダリティ(画像やテキストなど)のコヒーレントな共同生成を可能にする有意義な潜在表現を学べるべきである。
多くの応用では、モダリティのサブセットの観測で条件付けられたモダリティを正確にサンプリングする能力も必要である。
すべてのトレーニングデータポイントですべてのモダリティが観測されるわけではないため、半教師付き学習が可能となる。
本研究では,これらの特性を持つ多変量オートエンコーダの製品群(PoE)を評価する。
我々は新しいpoeベースのアーキテクチャとトレーニング手順を含む。
経験的評価は、PoEベースのモデルが添加性混合(MoE)アプローチより優れていることを示している。
我々の実験は、PoEモデルがモジュラリティの共役結合に適しているのに対して、MoEは接合融合に適しているという直感を支持する。
関連論文リスト
- Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Generalized Multimodal ELBO [11.602089225841631]
複数のデータ型は、現実世界の現象を記述し、そこから学習する際に自然に共起する。
ELBOを近似する既存の自己制御生成モデルは、マルチモーダルモデルのすべての要求を満たすことができない。
これらの制限を克服したマルチモーダルデータのための新しい一般化ELBO定式化を提案する。
論文 参考訳(メタデータ) (2021-05-06T07:05:00Z) - MHVAE: a Human-Inspired Deep Hierarchical Generative Model for
Multimodal Representation Learning [8.70928211339504]
表現学習のための階層型マルチモーダル生成モデルであるMHVAE(Multimodal Hierarchical Vari Auto-Encoder)をコントリビュートする。
人間の認知モデルにインスパイアされたMHVAEは、モダリティ固有の分布と、モダリティ間の推論に責任を持つ共同モダリティ分布を学習することができる。
本モデルは,任意の入力モダリティと相互モダリティ推定による共同モダリティ再構成に関する他の最先端生成モデルと同等に機能する。
論文 参考訳(メタデータ) (2020-06-04T16:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。