論文の概要: Continual-NExT: A Unified Comprehension And Generation Continual Learning Framework
- arxiv url: http://arxiv.org/abs/2602.18055v1
- Date: Fri, 20 Feb 2026 08:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.266019
- Title: Continual-NExT: A Unified Comprehension And Generation Continual Learning Framework
- Title(参考訳): Continual-NExT: 統合された理解と生成型継続的学習フレームワーク
- Authors: Jingyang Qiao, Zhizhong Zhang, Xin Tan, Jingyu Gong, Yanyun Qu, Yuan Xie,
- Abstract要約: MLLM(Multimodal Large Language Models)は、テキストや画像のモダリティを通じて、統一されたマルチモーダル理解と生成を可能にする。
強力な即時学習と一般化能力にもかかわらず、Dual-to-Dual MLLMは生涯の進化において依然として不十分である。
Dual-to-Dual MLLMの標準化された連続学習フレームワークはまだ確立されていない。
- 参考スコア(独自算出の注目度): 48.74174551777241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dual-to-Dual MLLMs refer to Multimodal Large Language Models, which can enable unified multimodal comprehension and generation through text and image modalities. Although exhibiting strong instantaneous learning and generalization capabilities, Dual-to-Dual MLLMs still remain deficient in lifelong evolution, significantly affecting continual adaptation to dynamic real-world scenarios. One of the challenges is that learning new tasks inevitably destroys the learned knowledge. Beyond traditional catastrophic forgetting, Dual-to-Dual MLLMs face other challenges, including hallucination, instruction unfollowing, and failures in cross-modal knowledge transfer. However, no standardized continual learning framework for Dual-to-Dual MLLMs has been established yet, leaving these challenges unexplored. Thus, in this paper, we establish Continual-NExT, a continual learning framework for Dual-to-Dual MLLMs with deliberately-architected evaluation metrics. To improve the continual learning capability of Dual-to-Dual MLLMs, we propose an efficient MAGE (Mixture and Aggregation of General LoRA and Expert LoRA) method to further facilitate knowledge transfer across modalities and mitigate forgetting. Extensive experiments demonstrate that MAGE outperforms other continual learning methods and achieves state-of-the-art performance.
- Abstract(参考訳): Dual-to-Dual MLLMは、テキストと画像のモダリティを通じて、統一されたマルチモーダル理解と生成を可能にするマルチモーダル大言語モデルを指す。
強力な即時学習と一般化能力を示すが、Dual-to-Dual MLLMはいまだに生涯の進化に欠けており、動的実世界のシナリオへの継続的な適応に大きな影響を与えている。
課題の1つは、新しいタスクの学習が必然的に学習した知識を破壊することである。
伝統的な破滅的な忘れ物以外にも、デュアル・トゥ・デュアル・MLLMは幻覚、命令のアンフォロー、モーダルな知識伝達の失敗など、他の課題に直面している。
しかし、Dual-to-Dual MLLMの標準化された連続学習フレームワークはまだ確立されておらず、これらの課題は未解決のままである。
そこで本稿では,2次元MLLMのための連続学習フレームワークであるContinual-NExTを意図的に設計した評価指標を用いて構築する。
デュアル・ツー・デュアルMLLMの継続的な学習能力を向上させるために,モーダル性間の知識伝達をさらに促進し,忘れを緩和する効率的なMAGE法を提案する。
大規模な実験により、MAGEは他の連続的な学習方法よりも優れ、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering [36.80441487363007]
MLLMEraserは、テスト時間アンラーニングのための入力対応、トレーニング不要のフレームワークである。
逆摂動型知識-リコール画像-テキストペアを対比してマルチモーダル消去方向を構築する。
LLaVA-1.5とQwen-2.5-VLの実験では、MLLMEraserは最先端MLLMの未学習ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-05T14:20:17Z) - MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - Uncovering inequalities in new knowledge learning by large language models across different languages [66.687369838071]
低リソース言語は、4つの次元すべてで一貫して不利に直面していることを示す。
我々は,LLMの新たな知識学習における言語的不平等の認識を高め,より包括的で公平な将来のLLMの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2025-03-06T03:41:47Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - ModalPrompt: Towards Efficient Multimodal Continual Instruction Tuning with Dual-Modality Guided Prompt [51.71932333475573]
大規模マルチモーダルモデル(LMM)は、混合命令データセットを学習することで、顕著なマルチタスク能力を示す。
既存のMCITメソッドはLMMのユニークな属性を完全に活用していない。
本稿では,従来の知識の忘れを効果的に緩和する,MCITのための新しい素早い学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - M2Distill: Multi-Modal Distillation for Lifelong Imitation Learning [9.15567555909617]
M2Distillは、生涯の模倣学習のためのマルチモーダル蒸留に基づく方法である。
我々は、前段階から現在の段階まで、様々なモダリティにわたる潜在表現のシフトを規制する。
学習したポリシーが、新しいスキルをシームレスに統合しながら、以前に学習したタスクを実行する能力を維持していることを保証します。
論文 参考訳(メタデータ) (2024-09-30T01:43:06Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。