論文の概要: Exemplar Masking for Multimodal Incremental Learning
- arxiv url: http://arxiv.org/abs/2412.09549v1
- Date: Thu, 12 Dec 2024 18:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:14.770959
- Title: Exemplar Masking for Multimodal Incremental Learning
- Title(参考訳): マルチモーダルインクリメンタルラーニングのための経験的マスキング
- Authors: Yi-Lun Lee, Chen-Yu Lee, Wei-Chen Chiu, Yi-Hsuan Tsai,
- Abstract要約: マルチモーダル・インクリメンタルな学習は、新しい知識を同時に学習しながら、複数のモーダルからの情報を消化する必要がある。
本稿では,従来の知識を効果的に再生するための模擬マスキングフレームワークを提案する。
我々は,従来のマスキングフレームワークが,同じメモリバッファ下での破滅的な忘れ込みに対して,より効率的で堅牢であることを示す。
- 参考スコア(独自算出の注目度): 47.18796033633918
- License:
- Abstract: Multimodal incremental learning needs to digest the information from multiple modalities while concurrently learning new knowledge without forgetting the previously learned information. There are numerous challenges for this task, mainly including the larger storage size of multimodal data in exemplar-based methods and the computational requirement of finetuning on huge multimodal models. In this paper, we leverage the parameter-efficient tuning scheme to reduce the burden of fine-tuning and propose the exemplar masking framework to efficiently replay old knowledge. Specifically, the non-important tokens are masked based on the attention weights and the correlation across different modalities, significantly reducing the storage size of an exemplar and consequently saving more exemplars under the same memory buffer. Moreover, we design a multimodal data augmentation technique to diversify exemplars for replaying prior knowledge. In experiments, we not only evaluate our method in existing multimodal datasets but also extend the ImageNet-R dataset to a multimodal dataset as a real-world application, where captions are generated by querying multimodal large language models (e.g., InstructBLIP). Extensive experiments show that our exemplar masking framework is more efficient and robust to catastrophic forgetting under the same limited memory buffer. Code is available at https://github.com/YiLunLee/Exemplar_Masking_MCIL.
- Abstract(参考訳): マルチモーダル・インクリメンタル・ラーニングは、複数のモーダルから情報を消化しつつ、学習した情報を忘れずに新しい知識を同時に学習する必要がある。
この課題には、例えば、模範的手法におけるマルチモーダルデータのストレージサイズが大きくなることや、巨大なマルチモーダルモデルで微調整を行う際の計算要求など、多くの課題がある。
本稿では,パラメータ効率のよいチューニング手法を利用して微調整の負担を軽減するとともに,従来の知識を効果的に再生するための模範マスキングフレームワークを提案する。
具体的には、注意重みと異なるモダリティ間の相関に基づいて、重要でないトークンをマスクし、前例の記憶サイズを著しく小さくし、結果として、同じメモリバッファの下で、より多くの前例を節約する。
さらに,先行知識を再生するために,先行知識を多様化するマルチモーダルデータ拡張手法を設計する。
実験では,既存のマルチモーダルデータセットだけでなく,画像Net-Rデータセットを実世界のアプリケーションとしてマルチモーダルデータセットに拡張し,マルチモーダルな大規模言語モデル(例えば,インストラクトBLIP)をクエリすることでキャプションを生成する。
大規模な実験により、我々の典型的なマスキングフレームワークは、同じ限られたメモリバッファの下で破滅的な記憶を忘れるのに対して、より効率的で堅牢であることが示された。
コードはhttps://github.com/YiLunLee/Exemplar_Masking_MCILで公開されている。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - Train Once, Deploy Anywhere: Matryoshka Representation Learning for Multimodal Recommendation [27.243116376164906]
マルチモーダルレコメンデーションのための大規模Matryoshka表現学習(fMRLRec)という軽量フレームワークを導入する。
当社のfMRLRecは,複数次元にわたる効率的なレコメンデーションのための情報表現を学習し,各項目の特徴を異なる粒度で捉えている。
複数のベンチマークデータセットに対するfMRLRecの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-09-25T05:12:07Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Efficient Multimodal Diffusion Models Using Joint Data Infilling with
Partially Shared U-Net [20.437172251393257]
部分共有U-Net (PS-U-Net) は、テキストと画像の入力を専用層を通過させ、モダリティ固有の細かな詳細を保存するためのスキップ接続を可能にする効率的なマルチモーダル拡散モデルである。
また,画像インパインティングに着想を得て,簡単な関節分布の学習を必要とせず,条件付き生成の新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。
我々はMS-COCOデータセットを実験的に探索し,既存のマルチモーダル拡散モデルと比較して高画質のマルチモーダルテキストと画像データを生成することを示した。
論文 参考訳(メタデータ) (2023-11-28T04:34:44Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - METEOR: Learning Memory and Time Efficient Representations from
Multi-modal Data Streams [19.22829945777267]
本稿では,Memory and Time Efficient Online Representation Learning(METEOR)について紹介する。
従来のメモリ集約型埋め込みと比較して,METEORはメモリ使用量を約80%削減しつつ,表現の質を保っていることを示す。
論文 参考訳(メタデータ) (2020-07-23T08:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。