Fugu-MT 論文翻訳(概要): Multimodal Variational Autoencoders for Semi-Supervised Learning: In Defense of Product-of-Experts

論文の概要: Multimodal Variational Autoencoders for Semi-Supervised Learning: In Defense of Product-of-Experts

arxiv url: http://arxiv.org/abs/2101.07240v1
Date: Mon, 18 Jan 2021 18:47:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-27 09:37:27.856837
Title: Multimodal Variational Autoencoders for Semi-Supervised Learning: In Defense of Product-of-Experts
Title（参考訳）: 半教師付き学習のためのマルチモーダル変分オートエンコーダ--製品・オブ・エキスパートの擁護
Authors: Svetlana Kutuzova, Oswin Krause, Douglas McCloskey, Mads Nielsen, Christian Igel
Abstract要約: 所望の特性を持つ多変量オートエンコーダの製品群(PoE)を評価した。経験的評価は、PoEベースのモデルが添加性混合(MoE)アプローチより優れていることを示している。
参考スコア（独自算出の注目度）: 15.53942454688811
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal generative models should be able to learn a meaningful latent representation that enables a coherent joint generation of all modalities (e.g., images and text). Many applications also require the ability to accurately sample modalities conditioned on observations of a subset of the modalities. Often not all modalities may be observed for all training data points, so semi-supervised learning should be possible. In this study, we evaluate a family of product-of-experts (PoE) based variational autoencoders that have these desired properties. We include a novel PoE based architecture and training procedure. An empirical evaluation shows that the PoE based models can outperform an additive mixture-of-experts (MoE) approach. Our experiments support the intuition that PoE models are more suited for a conjunctive combination of modalities while MoEs are more suited for a disjunctive fusion.
Abstract（参考訳）: マルチモーダル生成モデルは、すべてのモダリティ(画像やテキストなど)のコヒーレントな共同生成を可能にする有意義な潜在表現を学べるべきである。多くの応用では、モダリティのサブセットの観測で条件付けられたモダリティを正確にサンプリングする能力も必要である。すべてのトレーニングデータポイントですべてのモダリティが観測されるわけではないため、半教師付き学習が可能となる。本研究では,これらの特性を持つ多変量オートエンコーダの製品群(PoE)を評価する。我々は新しいpoeベースのアーキテクチャとトレーニング手順を含む。経験的評価は、PoEベースのモデルが添加性混合(MoE)アプローチより優れていることを示している。我々の実験は、PoEモデルがモジュラリティの共役結合に適しているのに対して、MoEは接合融合に適しているという直感を支持する。

関連論文リスト

Benchmarking Foundation Models with Multimodal Public Electronic Health Records [24.527782376051693]
本稿では,基礎モデルの性能,公平性,解釈可能性を評価するベンチマークを提案する。我々は異種臨床記録を解析可能な形式に調和させる標準化されたデータ処理パイプラインを開発した。以上の結果から,複数のデータモダリティを組み込むことで,バイアスを伴わずに予測性能が一貫した改善がもたらされることが示唆された。
論文参考訳（メタデータ） (2025-07-20T05:08:28Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文参考訳（メタデータ） (2024-09-30T01:38:26Z)
A Survey on Mixture of Experts [11.801185267119298]
モデルキャパシティを最小限のオーバーヘッドでスケールアップする有効な方法として、専門家(MoE)の混在が現れた。 MoEは、最小限のオーバーヘッドでモデルキャパシティを実質的にスケールアップする効果的な方法として登場した。この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
論文参考訳（メタデータ） (2024-06-26T16:34:33Z)
Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文参考訳（メタデータ） (2024-06-04T06:07:24Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。本研究では,データログ類似度を厳密に近似できる変動目標について考察する。我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文参考訳（メタデータ） (2023-09-01T10:32:21Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Score-Based Multimodal Autoencoder [0.9208007322096533]
マルチモーダル変分オートエンコーダ (VAEs) は、複数のモーダルが与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。これまでの研究では、モダリティの数が増えるにつれて、各モダリティの生成品質が低下することが示されている。本研究では、独立に訓練された単調なVAEの潜伏空間を共同でモデル化することにより、マルチモーダルなVAEの生成性能を高めるための代替手法について検討する。
論文参考訳（メタデータ） (2023-05-25T04:43:47Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。 SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文参考訳（メタデータ） (2022-10-23T01:33:16Z)
Generalized Multimodal ELBO [11.602089225841631]
複数のデータ型は、現実世界の現象を記述し、そこから学習する際に自然に共起する。 ELBOを近似する既存の自己制御生成モデルは、マルチモーダルモデルのすべての要求を満たすことができない。これらの制限を克服したマルチモーダルデータのための新しい一般化ELBO定式化を提案する。
論文参考訳（メタデータ） (2021-05-06T07:05:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。