論文の概要: Multi-Modal Continual Learning via Cross-Modality Adapters and Representation Alignment with Knowledge Preservation
- arxiv url: http://arxiv.org/abs/2511.06723v1
- Date: Mon, 10 Nov 2025 05:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.092001
- Title: Multi-Modal Continual Learning via Cross-Modality Adapters and Representation Alignment with Knowledge Preservation
- Title(参考訳): クロスモーダルアダプタによるマルチモーダル連続学習と知識保存による表現アライメント
- Authors: Evelyn Chee, Wynne Hsu, Mong Li Lee,
- Abstract要約: 獲得した知識を維持しながら、新しいタスクにモデルを適用するためには、継続的な学習が不可欠である。
マルチモーダル連続学習のための事前学習型モデルベースフレームワークを提案する。
我々のアプローチは、クラス・インクリメンタル・ラーニングとドメイン・インクリメンタル・ラーニングの両方において、一貫してベースラインを上回ります。
- 参考スコア(独自算出の注目度): 23.701550460744738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning is essential for adapting models to new tasks while retaining previously acquired knowledge. While existing approaches predominantly focus on uni-modal data, multi-modal learning offers substantial benefits by utilizing diverse sensory inputs, akin to human perception. However, multi-modal continual learning presents additional challenges, as the model must effectively integrate new information from various modalities while preventing catastrophic forgetting. In this work, we propose a pre-trained model-based framework for multi-modal continual learning. Our framework includes a novel cross-modality adapter with a mixture-of-experts structure to facilitate effective integration of multi-modal information across tasks. We also introduce a representation alignment loss that fosters learning of robust multi-modal representations, and regularize relationships between learned representations to preserve knowledge from previous tasks. Experiments on several multi-modal datasets demonstrate that our approach consistently outperforms baselines in both class-incremental and domain-incremental learning, achieving higher accuracy and reduced forgetting.
- Abstract(参考訳): 獲得した知識を維持しながら、新しいタスクにモデルを適用するためには、継続的な学習が不可欠である。
既存のアプローチは、主にユニモーダルデータにフォーカスするが、マルチモーダル学習は、人間の知覚に似た多様な感覚入力を活用することによって、かなりの利点をもたらす。
しかし,マルチモーダル連続学習は,破滅的な忘れ込みを防止しつつ,様々なモダリティからの新たな情報を効果的に統合する必要があるため,さらなる課題が生じる。
本研究では,マルチモーダル連続学習のための事前学習型モデルベースフレームワークを提案する。
我々のフレームワークは、タスク間のマルチモーダル情報の効果的な統合を容易にするために、Mix-of-experts構造を持つ新しいクロスモーダルアダプタを含んでいる。
また,ロバストなマルチモーダル表現の学習を促進する表現アライメント・アライメント・ロスを導入し,学習した表現間の関係を規則化し,従来のタスクから知識を保存する。
複数のマルチモーダルデータセットの実験により、我々のアプローチは、クラス増分学習とドメイン増分学習の両方において、ベースラインを一貫して上回り、精度が高く、忘れを少なくすることを示した。
関連論文リスト
- Quantifying Cross-Modality Memorization in Vision-Language Models [86.82366725590508]
モーダリティ記憶のユニークな特徴について検討し,視覚言語モデルを中心とした体系的な研究を行う。
以上の結果から,一方のモダリティが他方のモダリティに伝達されることが判明したが,情報源の情報と対象のモダリティの間には大きなギャップがあることがわかった。
論文 参考訳(メタデータ) (2025-06-05T16:10:47Z) - Harmony: A Unified Framework for Modality Incremental Learning [81.13765007314781]
本稿では,連続的に進化するモーダルシーケンスを横断するインクリメンタル学習が可能な統一モデルの実現可能性について検討する。
本研究では,適応的アライメントと知識保持を実現するために,Harmonyという新しいフレームワークを提案する。
提案手法は適応性のある特徴変調と累積的モーダルブリッジングを導入する。
論文 参考訳(メタデータ) (2025-04-17T06:35:01Z) - Continual Learning for Multiple Modalities [6.23075162128532]
複数のモダリティに対応する新しい連続学習フレームワークを提案する。
我々は、そのリッチなセマンティック情報を利用して、様々なモダリティをテキストと整合させるモデルを訓練する。
過去のモダリティ知識のオーバーライトを軽減するために,モダリティ内知識を統合する枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-11T05:50:13Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Zero-Shot Relational Learning for Multimodal Knowledge Graphs [31.215889061734295]
多様なマルチモーダル情報と知識グラフ構造を統合するために, マルチモーダル学習者, 構造コンソリエータ埋め込みジェネレータという3つのコンポーネントからなる新しいエンドツーエンドフレームワークを提案する。
3つのマルチモーダル知識グラフの評価結果は,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-09T11:14:45Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。