論文の概要: MLLM-CL: Continual Learning for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.05453v1
- Date: Thu, 05 Jun 2025 17:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 21:34:56.743523
- Title: MLLM-CL: Continual Learning for Multimodal Large Language Models
- Title(参考訳): MLLM-CL:マルチモーダル大規模言語モデルの継続的な学習
- Authors: Hongbo Zhao, Fei Zhu, Rundong Wang, Gaofeng Meng, Zhaoxiang Zhang,
- Abstract要約: ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。
我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
- 参考スコア(独自算出の注目度): 62.90736445575181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Multimodal Large Language Models (MLLMs) excel in vision-language understanding but face challenges in adapting to dynamic real-world scenarios that require continuous integration of new knowledge and skills. While continual learning (CL) offers a potential solution, existing benchmarks and methods suffer from critical limitations. In this paper, we introduce MLLM-CL, a novel benchmark encompassing domain and ability continual learning, where the former focuses on independently and identically distributed (IID) evaluation across evolving mainstream domains, whereas the latter evaluates on non-IID scenarios with emerging model ability. Methodologically, we propose preventing catastrophic interference through parameter isolation, along with an MLLM-based routing mechanism. Extensive experiments demonstrate that our approach can integrate domain-specific knowledge and functional abilities with minimal forgetting, significantly outperforming existing methods.
- Abstract(参考訳): 最近のMLLM(Multimodal Large Language Models)は、視覚言語理解に優れていますが、新しい知識とスキルの継続的な統合を必要とする動的な現実のシナリオに適応する上で、課題に直面しています。
継続学習(CL)は潜在的な解決策を提供するが、既存のベンチマークやメソッドには限界がある。
本稿では,ドメインと能力の連続学習を包含する新しいベンチマークであるMLLM-CLを紹介する。
本稿では,パラメータ分離による破滅的干渉の防止とMLLMに基づくルーティング機構を提案する。
大規模な実験により、我々のアプローチはドメイン固有の知識と機能的能力とを最小限の忘れ物で統合でき、既存の手法よりもはるかに優れています。
関連論文リスト
- Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Zero-shot Model-based Reinforcement Learning using Large Language Models [12.930241182192988]
本稿では,マルコフ決定過程の動的状態を予測するために,事前学習した大規模言語モデルをどのように活用することができるかを検討する。
本稿では,モデルに基づく政策評価とデータ強化型オフ政治強化学習という2つの強化学習環境における概念実証の応用について述べる。
論文 参考訳(メタデータ) (2024-10-15T15:46:53Z) - Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - Recent Advances of Foundation Language Models-based Continual Learning: A Survey [31.171203978742447]
基礎言語モデル (LM) は自然言語処理 (NLP) とコンピュータビジョン (CV) の分野において重要な成果を上げている。
しかし、破滅的な忘れ物のため、人間のような継続的学習をエミュレートすることはできない。
従来の知識を忘れずに新しいタスクに適応できるように、様々な連続学習(CL)ベースの方法論が開発されている。
論文 参考訳(メタデータ) (2024-05-28T23:32:46Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。