論文の概要: Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2512.03125v1
- Date: Tue, 02 Dec 2025 18:36:26 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:15:45.095034
- Title: Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models
- Title(参考訳): 統一型マルチモーダルモデルの連続学習におけるモーダル内およびモーダル間予測の緩和
- Authors: Xiwen Wei, Mustafa Munir, Radu Marculescu,
- Abstract要約: Modality-Decoupled Experts (MoDE)は、モダリティ固有のアップデートを分離し、勾配の衝突を軽減する軽量でスケーラブルなアーキテクチャである。
MoDEは、マルチモーダル生成の統一設定において、インターモーダルとイントラモーダルの両方の忘れを著しく軽減し、以前のCLベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 25.457245885820484
- License:
- Abstract: Unified Multimodal Generative Models (UMGMs) unify visual understanding and image generation within a single autoregressive framework. However, their ability to continually learn new tasks is severely hindered by catastrophic forgetting, both within a modality (intra-modal) and across modalities (inter-modal). While intra-modal forgetting has been studied in prior continual learning (CL) work, inter-modal forgetting remains largely unexplored. In this paper, we identify and empirically validate this phenomenon in UMGMs and provide a theoretical explanation rooted in gradient conflict between modalities. To address both intra- and inter-modal forgetting, we propose Modality-Decoupled Experts (MoDE), a lightweight and scalable architecture that isolates modality-specific updates to mitigate the gradient conflict and leverages knowledge distillation to prevent catastrophic forgetting and preserve pre-trained capabilities. Unlike previous CL methods that remain modality-coupled and suffer from modality gradient conflict, MoDE explicitly decouples modalities to prevent interference. Experiments across diverse benchmarks demonstrate that MoDE significantly mitigates both inter- and intra-modal forgetting, outperforming prior CL baselines in unified multimodal generation settings. Codes will be publicly available: https://github.com/Christina200/MoDE-official.git
- Abstract(参考訳): Unified Multimodal Generative Models (UMGM)は、単一の自己回帰フレームワーク内での視覚的理解と画像生成を統合する。
しかし、新しいタスクを継続的に学習する能力は、モダリティ内(イントラモーダル)とモダリティ内(インターモーダル)の両方において、破滅的な忘れによって著しく妨げられる。
モーダル内忘れは、先行的継続学習(CL)研究で研究されているが、モーダル間忘れは未解明のままである。
本稿では,この現象をUMGMで同定し,実証的に検証し,モダリティ間の勾配衝突に根ざした理論的説明を与える。
モーダリティ・デカップリング・エキスパート(MoDE)は,モダリティ固有の更新を分離し,勾配の対立を緩和し,知識蒸留を活用して破滅的な忘れ込みを防止し,事前訓練した能力を維持する軽量でスケーラブルなアーキテクチャである。
モダリティ結合を保ち、モダリティ勾配の衝突に苦しむ従来のCL法とは異なり、MoDEは干渉を防ぐためにモダリティを明示的に分離する。
様々なベンチマークによる実験により、MoDEはモデム間およびモデム内の両方の忘れを著しく軽減し、統一されたマルチモーダル生成設定において、以前のCLベースラインよりも優れていたことが示されている。
https://github.com/Christina200/MoDE-official.git
関連論文リスト
- Boosting Multimodal Learning via Disentangled Gradient Learning [6.93254775445168]
マルチモーダル学習はしばしば最適化されていない問題に遭遇し、一助学習よりもパフォーマンスが劣る。
マルチモーダルモデルにおけるモダリティエンコーダとモダリティ融合モジュール間の最適化競合を明らかにする。
本稿では,モダリティエンコーダとモダリティ融合モジュールの最適化を分離するために,非交叉勾配学習(DGL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T12:31:28Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Rethinking Multimodal Content Moderation from an Asymmetric Angle with
Mixed-modality [14.594707272134414]
ソーシャルメディア上でのマルチモーダルコンテンツモデレーション(CM)の必要性は急速に高まっている。
既存のユニモーダルCMシステムは、モダリティを越える有害な内容の取得に失敗する可能性がある。
マルチモーダルおよび非モーダルCMタスクを対象とする新しいCMモデルである非対称混合モードモデレーション(AM3)を提案する。
論文 参考訳(メタデータ) (2023-05-17T20:06:29Z) - Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文 参考訳(メタデータ) (2022-11-25T06:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。