論文の概要: Continual Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2503.14963v1
- Date: Wed, 19 Mar 2025 07:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:47.872629
- Title: Continual Multimodal Contrastive Learning
- Title(参考訳): 連続的マルチモーダルコントラスト学習
- Authors: Xiaohao Liu, Xiaobo Xia, See-Kiong Ng, Tat-Seng Chua,
- Abstract要約: マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
- 参考スコア(独自算出の注目度): 70.60542106731813
- License:
- Abstract: Multimodal contrastive learning (MCL) advances in aligning different modalities and generating multimodal representations in a joint space. By leveraging contrastive learning across diverse modalities, large-scale multimodal data enhances representational quality. However, a critical yet often overlooked challenge remains: multimodal data is rarely collected in a single process, and training from scratch is computationally expensive. Instead, emergent multimodal data can be used to optimize existing models gradually, \textit{i.e.}, models are trained on a sequence of modality pair data. We define this problem as Continual Multimodal Contrastive Learning (CMCL), an underexplored yet crucial research direction at the intersection of multimodal and continual learning. In this paper, we formulate CMCL through two specialized principles of stability and plasticity. We theoretically derive a novel optimization-based method, which projects updated gradients from dual sides onto subspaces where any gradient is prevented from interfering with the previously learned knowledge. Two upper bounds provide theoretical insights on both stability and plasticity in our solution. Beyond our theoretical contributions, we conduct experiments on multiple datasets by comparing our method against advanced continual learning baselines. The empirical results further support our claims and demonstrate the efficacy of our method. The code will be publicly available.
- Abstract(参考訳): マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。
多様なモダリティをまたいだコントラスト学習を活用することで、大規模なマルチモーダルデータにより表現品質が向上する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
代わりに、既存のモデルを徐々に最適化するために、創発的マルチモーダルデータを使うことができる。
我々は,この問題をマルチモーダル・コントラスト学習(CMCL)と定義する。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
2つの上限は、我々の解における安定性と可塑性の両方に関する理論的洞察を与える。
理論的コントリビューションの他に、先進的な連続学習ベースラインと比較することにより、複数のデータセットで実験を行う。
実験結果は,我々の主張をさらに支持し,提案手法の有効性を実証する。
コードは公開されます。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。