Fugu-MT 論文翻訳(概要): Mitigating Modality Collapse in Multimodal VAEs via Impartial Optimization

論文の概要: Mitigating Modality Collapse in Multimodal VAEs via Impartial Optimization

arxiv url: http://arxiv.org/abs/2206.04496v1
Date: Thu, 9 Jun 2022 13:29:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-10 15:27:11.169988
Title: Mitigating Modality Collapse in Multimodal VAEs via Impartial Optimization
Title（参考訳）: 等分的最適化によるマルチモーダルVAEのモダリティ崩壊の軽減
Authors: Adri\'an Javaloy, Maryam Meghdadi and Isabel Valera
Abstract要約: この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
参考スコア（独自算出の注目度）: 7.4262579052708535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A number of variational autoencoders (VAEs) have recently emerged with the aim of modeling multimodal data, e.g., to jointly model images and their corresponding captions. Still, multimodal VAEs tend to focus solely on a subset of the modalities, e.g., by fitting the image while neglecting the caption. We refer to this limitation as modality collapse. In this work, we argue that this effect is a consequence of conflicting gradients during multimodal VAE training. We show how to detect the sub-graphs in the computational graphs where gradients conflict (impartiality blocks), as well as how to leverage existing gradient-conflict solutions from multitask learning to mitigate modality collapse. That is, to ensure impartial optimization across modalities. We apply our training framework to several multimodal VAE models, losses and datasets from the literature, and empirically show that our framework significantly improves the reconstruction performance, conditional generation, and coherence of the latent space across modalities.
Abstract（参考訳）: 多くの変分オートエンコーダ(vaes)が最近登場し、画像とそれに対応するキャプションを共同でモデル化するマルチモーダルデータのモデリングを目的としている。それでも、マルチモーダルvaeは、キャプションを無視しながら画像を適合させることによって、モダリティのサブセットのみに焦点を当てる傾向がある。この制限をモダリティ崩壊と呼ぶ。本研究では,マルチモーダルvaeトレーニングにおける相反する勾配の結果として,この効果を論じる。グラデーションが競合する計算グラフ(非偏性ブロック)のサブグラフを検出する方法と、マルチタスク学習から既存のグラデーション・コンフリクト解を活用してモダリティ崩壊を緩和する方法を示す。つまり、モダリティ間の公平な最適化を保証する。我々は,複数のマルチモーダルvaeモデル,文献からの損失とデータセットにトレーニングフレームワークを適用し,そのフレームワークがモーダリティをまたいだ潜在空間の復元性能,条件生成,コヒーレンスを大幅に改善できることを実証的に示した。

関連論文リスト

MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces [23.447713697204225]
MAGEは、革新的なアライメント機構を通じて視覚とテキストの意味空間をブリッジする新しいフレームワークである。我々は、クロスエントロピーと平均二乗誤差を組み合わせたトレーニング戦略を採用し、アライメント効果を著しく向上させる。提案するマルチモーダル大規模モデルアーキテクチャであるMAGEは,様々な評価ベンチマークにおける類似の手法と比較して,性能が大幅に向上した。
論文参考訳（メタデータ） (2025-07-29T12:17:46Z)
Boosting Multimodal Learning via Disentangled Gradient Learning [6.93254775445168]
マルチモーダル学習はしばしば最適化されていない問題に遭遇し、一助学習よりもパフォーマンスが劣る。マルチモーダルモデルにおけるモダリティエンコーダとモダリティ融合モジュール間の最適化競合を明らかにする。本稿では,モダリティエンコーダとモダリティ融合モジュールの最適化を分離するために,非交叉勾配学習(DGL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-14T12:31:28Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Learning a Unified Degradation-aware Representation Model for Multi-modal Image Fusion [13.949209965987308]
All-in-One Degradation-Aware Fusion Models (ADFM)は、ソース画像からの劣化を軽減し、高品質の融合画像を生成することで複雑なシーンに対処する。メインストリームADFMは、しばしば高度に合成されたマルチモーダル・マルチクオリティ・イメージを監督に頼り、クロスモーダルおよび希少な劣化シナリオにおけるその有効性を制限している。本稿では、赤外線と可視画像融合のための学習駆動統一表現モデルLUREについて述べる。
論文参考訳（メタデータ） (2025-03-10T08:16:36Z)
Partially Supervised Unpaired Multi-Modal Learning for Label-Efficient Medical Image Segmentation [53.723234136550055]
我々は、新しい学習パラダイムを部分教師付き無ペア型マルチモーダルラーニング(PSUMML)と呼ぶ。そこで我々は,DEST (Ensembled Self-Training) フレームワークを用いた新しい部分クラス適応法を提案する。我々のフレームワークは、部分的にラベル付けされていないマルチモーダルデータを用いて学習するためのモダリティ特定正規化層を持つコンパクトなセグメンテーションネットワークで構成されている。
論文参考訳（メタデータ） (2025-03-07T07:22:42Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。 Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。 nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-28T14:23:58Z)
Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文参考訳（メタデータ） (2024-10-15T08:49:38Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。マルチステップ誤り最小化(MEM)を提案する。
論文参考訳（メタデータ） (2024-07-23T09:00:52Z)
Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-10-08T10:47:24Z)
Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-01-26T19:18:27Z)
Image Generation with Multimodal Priors using Denoising Diffusion Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文参考訳（メタデータ） (2022-06-10T12:23:05Z)
Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文参考訳（メタデータ） (2022-03-29T08:26:38Z)
Weakly supervised segmentation with cross-modality equivariant constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文参考訳（メタデータ） (2021-04-06T13:14:20Z)
MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。 VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文参考訳（メタデータ） (2020-07-23T05:41:27Z)
Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。 MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文参考訳（メタデータ） (2020-06-15T18:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。