論文の概要: Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization
- arxiv url: http://arxiv.org/abs/2206.04496v1
- Date: Thu, 9 Jun 2022 13:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 15:27:11.169988
- Title: Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization
- Title(参考訳): 等分的最適化によるマルチモーダルVAEのモダリティ崩壊の軽減
- Authors: Adri\'an Javaloy, Maryam Meghdadi and Isabel Valera
- Abstract要約: この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 7.4262579052708535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A number of variational autoencoders (VAEs) have recently emerged with the
aim of modeling multimodal data, e.g., to jointly model images and their
corresponding captions. Still, multimodal VAEs tend to focus solely on a subset
of the modalities, e.g., by fitting the image while neglecting the caption. We
refer to this limitation as modality collapse. In this work, we argue that this
effect is a consequence of conflicting gradients during multimodal VAE
training. We show how to detect the sub-graphs in the computational graphs
where gradients conflict (impartiality blocks), as well as how to leverage
existing gradient-conflict solutions from multitask learning to mitigate
modality collapse. That is, to ensure impartial optimization across modalities.
We apply our training framework to several multimodal VAE models, losses and
datasets from the literature, and empirically show that our framework
significantly improves the reconstruction performance, conditional generation,
and coherence of the latent space across modalities.
- Abstract(参考訳): 多くの変分オートエンコーダ(vaes)が最近登場し、画像とそれに対応するキャプションを共同でモデル化するマルチモーダルデータのモデリングを目的としている。
それでも、マルチモーダルvaeは、キャプションを無視しながら画像を適合させることによって、モダリティのサブセットのみに焦点を当てる傾向がある。
この制限をモダリティ崩壊と呼ぶ。
本研究では,マルチモーダルvaeトレーニングにおける相反する勾配の結果として,この効果を論じる。
グラデーションが競合する計算グラフ(非偏性ブロック)のサブグラフを検出する方法と、マルチタスク学習から既存のグラデーション・コンフリクト解を活用してモダリティ崩壊を緩和する方法を示す。
つまり、モダリティ間の公平な最適化を保証する。
我々は,複数のマルチモーダルvaeモデル,文献からの損失とデータセットにトレーニングフレームワークを適用し,そのフレームワークがモーダリティをまたいだ潜在空間の復元性能,条件生成,コヒーレンスを大幅に改善できることを実証的に示した。
関連論文リスト
- Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。
我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。
本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-12-10T17:06:41Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z) - Weakly supervised segmentation with cross-modality equivariant
constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。
本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。
私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文 参考訳(メタデータ) (2021-04-06T13:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。