論文の概要: Split-on-Share: Mixture of Sparse Experts for Task-Agnostic Continual Learning
- arxiv url: http://arxiv.org/abs/2601.17616v1
- Date: Sat, 24 Jan 2026 22:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.094404
- Title: Split-on-Share: Mixture of Sparse Experts for Task-Agnostic Continual Learning
- Title(参考訳): Split-on-Share:タスク非依存型連続学習のためのスパースエキスパートの混合
- Authors: Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari,
- Abstract要約: 大規模言語モデル(LLM)における連続学習は、可塑性安定性ジレンマによって妨げられる。
モデルをモジュラー部分空間に分解することで可塑性と安定性の衝突を解決するフレームワークであるSETAを紹介する。
SETA は,パラメータ効率のよい連続学習法よりも常に優れていることを示す。
- 参考スコア(独自算出の注目度): 10.01449025634975
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Continual learning in Large Language Models (LLMs) is hindered by the plasticity-stability dilemma, where acquiring new capabilities often leads to catastrophic forgetting of previous knowledge. Existing methods typically treat parameters uniformly, failing to distinguish between specific task knowledge and shared capabilities. We introduce Mixture of Sparse Experts for Task-Agnostic Continual Learning, referred to as SETA, a framework that resolves the plasticity-stability conflict by decomposing the model into modular subspaces. Unlike standard updates, where tasks compete for the same parameters, SETA separates knowledge into unique experts, designed to isolate task-specific patterns, and shared experts, responsible for capturing common features. This structure is maintained through elastic weight anchoring, which protects critical shared knowledge and enables a unified gating network to automatically retrieve the correct expert combination for each task during inference. Extensive experiments across diverse domain-specific and general benchmarks demonstrate that SETA consistently outperforms state-of-the-art parameter-efficient fine-tuning-based continual learning methods.
- Abstract(参考訳): 大規模言語モデル(LLM)における継続的な学習は、可塑性-安定性ジレンマによって妨げられる。
既存のメソッドは通常、パラメータを均一に扱い、特定のタスク知識と共有能力の区別に失敗する。
モデルをモジュラー部分空間に分解することで可塑性・安定性の衝突を解消するフレームワークである SETA と呼ばれるタスク非依存型連続学習のためのスパースエキスパートの混合について紹介する。
タスクが同じパラメータを競合する標準的な更新とは異なり、SETAは知識を、タスク固有のパターンを分離するように設計されたユニークな専門家と、共通の特徴をキャプチャする責任を持つ共有専門家に分ける。
この構造は、重要な共有知識を保護し、統合されたゲーティングネットワークが推論中に各タスクの正しい専門家の組み合わせを自動的に検索することを可能にする、弾性重み付けによって維持される。
様々なドメイン固有および一般的なベンチマークの広範な実験により、SETAは、最先端のパラメータ効率の高い微調整に基づく連続的な学習方法よりも一貫して優れていることが示された。
関連論文リスト
- Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - LEAF: A Robust Expert-Based Framework for Few-Shot Continual Event Detection [7.094483187879095]
LEAFは、連続イベント検出のための新しくて堅牢なエキスパートベースのフレームワークである。
各専門家はローランク適応(LoRA)行列でパラメータ化される。
セマンティックアウェアの専門家選択機構は、インスタンスを最も関係のある専門家に動的にルーティングし、専門家の専門化と知識干渉の低減を可能にする。
論文 参考訳(メタデータ) (2025-09-29T10:00:25Z) - One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning [52.966712416640085]
本稿では,タスク固有戦略と共有プロンプト戦略の両方の利点を統合する新しいフレームワークであるSMoPEを提案する。
SMoPEはタスク固有のプロンプトメソッドを一貫して上回り、最先端のアプローチと競合する性能を達成する。
論文 参考訳(メタデータ) (2025-09-29T08:54:58Z) - CKAA: Cross-subspace Knowledge Alignment and Aggregation for Robust Continual Learning [80.18781219542016]
継続的学習(CL)は、シーケンシャルなタスクストリームから継続的に学習するAIモデルに権限を与える。
近年,パラメータ効率のよい微調整(PEFT)によるCL法が注目されている。
ミスリード型タスクIDに対するロバスト性を高めるために,クロスサブスペース・ナレッジアライメント・アグリゲーション(CKAA)を提案する。
論文 参考訳(メタデータ) (2025-07-13T03:11:35Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - More Experts Than Galaxies: Conditionally-overlapping Experts With Biologically-Inspired Fixed Routing [5.846028298833611]
Conditionally Overlapping Mixture of ExperTs (COMET) は、モジュラーでスパースなアーキテクチャを、指数関数的に重複する専門家数で誘導する一般的なディープラーニング手法である。
画像分類,言語モデリング,回帰といったタスクにおけるCOMETの有効性を示す。
論文 参考訳(メタデータ) (2024-10-10T14:58:18Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。