論文の概要: One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning
- arxiv url: http://arxiv.org/abs/2509.24483v1
- Date: Mon, 29 Sep 2025 08:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.877369
- Title: One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning
- Title(参考訳): One-Promptが逆戻り:Promptベースの継続的な学習のためのエキスパートのまばらな混合
- Authors: Minh Le, Bao-Ngoc Dao, Huy Nguyen, Quyen Tran, Anh Nguyen, Nhat Ho,
- Abstract要約: 本稿では,タスク固有戦略と共有プロンプト戦略の両方の利点を統合する新しいフレームワークであるSMoPEを提案する。
SMoPEはタスク固有のプロンプトメソッドを一貫して上回り、最先端のアプローチと競合する性能を達成する。
- 参考スコア(独自算出の注目度): 52.966712416640085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based methods have recently gained prominence in Continual Learning (CL) due to their strong performance and memory efficiency. A prevalent strategy in this paradigm assigns a dedicated subset of prompts to each task, which, while effective, incurs substantial computational overhead and causes memory requirements to scale linearly with the number of tasks. Conversely, approaches employing a single shared prompt across tasks offer greater efficiency but often suffer from degraded performance due to knowledge interference. To reconcile this trade-off, we propose SMoPE, a novel framework that integrates the benefits of both task-specific and shared prompt strategies. Inspired by recent findings on the relationship between Prefix Tuning and Mixture of Experts (MoE), SMoPE organizes a shared prompt into multiple "prompt experts" within a sparse MoE architecture. For each input, only a select subset of relevant experts is activated, effectively mitigating interference. To facilitate expert selection, we introduce a prompt-attention score aggregation mechanism that computes a unified proxy score for each expert, enabling dynamic and sparse activation. Additionally, we propose an adaptive noise mechanism to encourage balanced expert utilization while preserving knowledge from prior tasks. To further enhance expert specialization, we design a prototype-based loss function that leverages prefix keys as implicit memory representations. Extensive experiments across multiple CL benchmarks demonstrate that SMoPE consistently outperforms task-specific prompt methods and achieves performance competitive with state-of-the-art approaches, all while significantly reducing parameter counts and computational costs.
- Abstract(参考訳): プロンプトベースの手法は、性能とメモリ効率が強いため、最近CL(Continuous Learning)で注目されている。
このパラダイムの一般的な戦略は、各タスクにプロンプトの専用のサブセットを割り当て、そのプロンプトは有効ではあるが、かなりの計算オーバーヘッドを発生させ、メモリ要求をタスク数と線形にスケールさせる。
逆に、タスク間で共有された1つのプロンプトを使うアプローチは、より効率が良いが、知識の干渉による性能低下に悩まされることが多い。
このトレードオフを解消するために,タスク固有戦略と共有プロンプト戦略の両方の利点を統合する新しいフレームワークであるSMoPEを提案する。
プレフィックスチューニングとMixture of Experts (MoE)の関係に関する最近の知見に触発されて、SMoPEはスパースMoEアーキテクチャ内で複数の"プロンプトエキスパート"に共有プロンプトを編成する。
各入力に対して、関連する専門家の特定のサブセットのみが活性化され、干渉を効果的に緩和する。
専門家の選択を容易にするために,専門家毎の統一されたプロキシスコアを計算し,動的かつスパースなアクティベーションを可能にするプロンプトアテンションスコア収集機構を導入する。
また,従来のタスクからの知識を保ちながら,バランスの取れた専門家の活用を促進する適応雑音機構を提案する。
専門家の専門化をさらに進めるために,プレフィックスキーを暗黙のメモリ表現として活用するプロトタイプベースの損失関数を設計する。
複数のCLベンチマークによる大規模な実験により、SMoPEはタスク固有のプロンプトメソッドを一貫して上回り、最先端のアプローチと競合する性能を実現し、パラメータ数や計算コストを大幅に削減した。
関連論文リスト
- Adaptive Prompting for Continual Relation Extraction: A Within-Task Variance Perspective [23.79259400522239]
本稿では,連続関係抽出における破滅的忘れに対処する新しい手法を提案する。
提案手法では各タスクにプロンプトプールを導入し,タスク内の変動を捉えるとともに,タスク間の差異を増大させる。
論文 参考訳(メタデータ) (2024-12-11T11:00:33Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。
近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文 参考訳(メタデータ) (2024-07-04T10:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。