論文の概要: CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning
- arxiv url: http://arxiv.org/abs/2605.20247v1
- Date: Mon, 18 May 2026 06:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.231999
- Title: CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning
- Title(参考訳): CP-MoE:連続学習のための一貫性保存ミックス
- Authors: Yang Liu, Toan Nguyen, Flora D. Salim,
- Abstract要約: 大型言語モデル (LLM) と視覚言語モデル (VLM) における連続学習の大きな障害は、依然として破滅的な忘れ方である。
CP-MoEは、タスク固有の初期更新をキャプチャし、安定した専門家への統合をガイドする、一貫した専門家を中心に構築された継続的学習フレームワークである。
CP-MoE を LLM と VLM をベースとした MoE モデルを用いて一様および多モード連続学習ベンチマークで検証する。
- 参考スコア(独自算出の注目度): 16.033361968793162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Catastrophic forgetting remains a major obstacle to continual learning in large language models (LLMs) and vision--language models (VLMs). Although Mixture-of-Experts (MoE) architectures offer an efficient path to scaling, existing LoRA-based MoE continual learning methods still face a fundamental trade-off: they either isolate experts too aggressively, limiting knowledge transfer across tasks, or allow task-specific updates to overwrite important existing parameters, leading to severe forgetting. To address this, we propose CP-MoE, a continual learning framework built around a transient expert that captures early task-specific updates and guides their integration into stable experts. CP-MoE introduces a consistency-preserving routing bias, which uses the transient expert to estimate representation similarity with stable experts and steer routing towards more compatible expert selection, and a transient expert-guided regularisation mechanism, which selectively protects important historical parameters during merging. Together, these components reduce parameter interference and forgetting while preserving cross-task knowledge transfer. We validate CP-MoE on both unimodal and multimodal continual learning benchmarks with LLM-based and VLM-based MoE models. On SuperNI benchmark, spanning diverse sequential language tasks, CP-MoE achieves state-of-the-art performance and stronger zero-shot transfer to unseen tasks. On VQA v2 dataset, it scales effectively to multimodal visual reasoning, consistently reduces forgetting, and outperforms strong MoE baselines.
- Abstract(参考訳): 大型言語モデル(LLM)や視覚言語モデル(VLM)において、破滅的な忘れが継続的学習の大きな障害となっている。
Mixture-of-Experts (MoE)アーキテクチャは、スケーリングに効率的なパスを提供するが、既存のLoRAベースのMoE連続学習手法は、専門家を積極的に分離しすぎ、タスク間の知識伝達を制限するか、タスク固有のアップデートで重要なパラメータを上書きできるため、重大な忘れがちである。
これを解決するために,CP-MoEを提案する。CP-MoEは,タスク固有の早期更新をキャプチャし,安定した専門家への統合をガイドする,一貫した専門家を中心に構築された継続的学習フレームワークである。
CP-MoEは、一貫性を保つルーティングバイアスを導入し、このバイアスは、一貫した専門家を用いて、安定した専門家との表現類似性を推定し、より互換性のある専門家の選択に向けてステアルーティングを行う。
これらのコンポーネントは、クロスタスクの知識伝達を保ちながら、パラメータの干渉や忘れを減少させる。
CP-MoE を LLM と VLM をベースとした MoE モデルを用いて一様および多モード連続学習ベンチマークで検証する。
SuperNIベンチマークでは、様々なシーケンシャルな言語タスクにまたがるCP-MoEは、最先端のパフォーマンスと、目に見えないタスクへのより強力なゼロショット転送を実現している。
VQA v2データセットでは、マルチモーダルな視覚推論に効果的にスケールし、常に忘れを減らし、強力なMoEベースラインを上回っている。
関連論文リスト
- FutureMind: Equipping Small Language Models with Strategic Thinking-Pattern Priors via Adaptive Knowledge Distillation [13.855534865501369]
小型言語モデル(SLM)は、その効率的で低レイテンシな推論のため、コスト感受性とリソース制限の設定に魅力的である。
本稿では,SLMに戦略的思考パターンを付加したモジュラー推論フレームワークであるFutureMindを提案する。
論文 参考訳(メタデータ) (2026-02-01T13:26:04Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - Mixtures of SubExperts for Large Language Continual Learning [6.425296129700846]
タスクの連続ストリームに大規模言語モデルを適用することは、決定的だが挑戦的な取り組みである。
1組のPEFTパラメータを新しいタスクに再利用すると、しばしば以前の知識を壊滅的に忘れてしまう。
本稿では,最小限の忘れ込みと効率のよい拡張性を実現するための,新しい連続学習フレームワークであるTextitMixtures of SubExperts (MoSEs)を提案する。
論文 参考訳(メタデータ) (2025-11-09T05:44:45Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering [27.812611421754482]
連続視覚質問応答 (VQA) のためのMLLMs-based dual momentum Mixture-of-Experts (CL-MoE) フレームワークを提案する。
MLLMと連続学習を統合し,LLMの豊富なコモンセンス知識を活用する。
提案手法は,10VQAタスクにおける最先端性能を実現し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-03-01T09:25:23Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。