Fugu-MT 論文翻訳(概要): Learning more expressive joint distributions in multimodal variational methods

論文の概要: Learning more expressive joint distributions in multimodal variational methods

arxiv url: http://arxiv.org/abs/2009.03651v1
Date: Tue, 8 Sep 2020 11:45:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 20:29:03.988140
Title: Learning more expressive joint distributions in multimodal variational methods
Title（参考訳）: マルチモーダル変分法におけるより表現力のあるジョイント分布の学習
Authors: Sasho Nedelkoski, Mihail Bogojeski, Odej Kao
Abstract要約: 正規化フローを用いたマルチモーダル変分法の表現能力を向上させる手法を提案する。このモデルは,様々なコンピュータビジョンタスクの変動推論に基づいて,最先端のマルチモーダル手法を改善することを実証する。また, より強力な近似関節分布の学習により, 生成した試料の品質が向上することを示した。
参考スコア（独自算出の注目度）: 0.17188280334580194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data often are formed of multiple modalities, which jointly describe the observed phenomena. Modeling the joint distribution of multimodal data requires larger expressive power to capture high-level concepts and provide better data representations. However, multimodal generative models based on variational inference are limited due to the lack of flexibility of the approximate posterior, which is obtained by searching within a known parametric family of distributions. We introduce a method that improves the representational capacity of multimodal variational methods using normalizing flows. It approximates the joint posterior with a simple parametric distribution and subsequently transforms into a more complex one. Through several experiments, we demonstrate that the model improves on state-of-the-art multimodal methods based on variational inference on various computer vision tasks such as colorization, edge and mask detection, and weakly supervised learning. We also show that learning more powerful approximate joint distributions improves the quality of the generated samples. The code of our model is publicly available at https://github.com/SashoNedelkoski/BPFDMVM.
Abstract（参考訳）: データはしばしば複数のモードで形成され、観測された現象を共同で記述する。マルチモーダルデータの連成分布をモデル化するには,高レベルの概念を捉え,より優れたデータ表現を提供するために,より大きな表現力が必要である。しかし、変分推論に基づく多重モーダル生成モデルは、既知のパラメトリック分布の族内を探索することによって得られる近似後続の柔軟性の欠如により制限される。正規化フローを用いたマルチモーダル変分法の表現能力を向上させる手法を提案する。単純なパラメトリック分布で関節後方を近似し、その後より複雑なものへと変換する。いくつかの実験を通じて,カラー化,エッジ・マスク検出,弱い教師付き学習といった様々なコンピュータビジョンタスクにおける変分推論に基づく,最先端のマルチモーダル手法を改良できることを実証した。また,より強力な近似ジョイント分布の学習により,生成したサンプルの品質が向上することを示す。私たちのモデルのコードはhttps://github.com/SashoNedelkoski/BPFDMVMで公開されています。

関連論文リスト

Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
Bridging the inference gap in Mutimodal Variational Autoencoders [6.246098300155483]
マルチモーダル変分オートエンコーダは、観測されたモダリティから観測されていないモダリティを生成するための多目的でスケーラブルな方法を提供する。エキスパートの混合集合を用いた最近のモデルは、複雑なデータセットにおける生成品質を制限する理論的に基礎的な制限に悩まされている。本稿では,混合アグリゲーションを導入することなく,結合分布と条件分布の両方を学習できる新しい解釈可能なモデルを提案する。
論文参考訳（メタデータ） (2025-02-06T10:43:55Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文参考訳（メタデータ） (2024-09-30T01:38:26Z)
Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文参考訳（メタデータ） (2024-07-24T18:04:17Z)
Controlling the Fidelity and Diversity of Deep Generative Models via Pseudo Density [70.14884528360199]
本稿では, GAN や拡散モデルなどのバイアス深層生成モデルへのアプローチを導入し, 忠実度の向上や多様性の向上を図ったデータ生成手法を提案する。提案手法では, 擬似密度という, 個人サンプルの新たな測定基準を用いて, トレーニングとデータ生成の分布を操作する。
論文参考訳（メタデータ） (2024-07-11T16:46:04Z)
Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文参考訳（メタデータ） (2024-02-16T16:47:21Z)
Revealing Multimodal Contrastive Representation Learning through Latent Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文参考訳（メタデータ） (2023-11-28T16:46:14Z)
Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。本研究では,データログ類似度を厳密に近似できる変動目標について考察する。我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文参考訳（メタデータ） (2023-09-01T10:32:21Z)
Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文参考訳（メタデータ） (2022-12-19T23:50:19Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)
Variational Dynamic Mixtures [18.730501689781214]
逐次潜伏変数を推定するための変分動的混合(VDM)を開発した。実証実験により、VDMは、高マルチモーダルデータセットにおける競合するアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2020-10-20T16:10:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。