論文の概要: Multi-Head Attention as a Source of Catastrophic Forgetting in MoE Transformers
- arxiv url: http://arxiv.org/abs/2602.12587v1
- Date: Fri, 13 Feb 2026 03:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.836532
- Title: Multi-Head Attention as a Source of Catastrophic Forgetting in MoE Transformers
- Title(参考訳): MoE変圧器のカタストロフィック留置源としての多面的注意
- Authors: Anrui Chen, Ruijun Huang, Xin Zhang, Fang Dong, Hengjie Cao, Zhendong Huang, Yifeng Yang, Mengyi Chen, Jixian Zhou, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Robert P. Dick, Yuan Cheng, Tun Lu, Fan Yang, Li Shang,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、継続的学習に適していると考えられていることが多い。
本稿では,MH-MoEを提案する。このMH-MoEは,部分表現を頭部的にルーティングすることで,ルーティングの粒度を増大させ,合成衝突を低減する。
- 参考スコア(独自算出の注目度): 28.800065959523696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures are often considered a natural fit for continual learning because sparse routing should localize updates and reduce interference, yet MoE Transformers still forget substantially even with sparse, well-balanced expert utilization. We attribute this gap to a pre-routing bottleneck: multi-head attention concatenates head-specific signals into a single post-attention router input, forcing routing to act on co-occurring feature compositions rather than separable head channels. We show that this router input simultaneously encodes multiple separately decodable semantic and structural factors with uneven head support, and that different feature compositions induce weakly aligned parameter-gradient directions; as a result, routing maps many distinct compositions to the same route. We quantify this collision effect via a route-wise effective composition number $N_{eff}$ and find that higher $N_{eff}$ is associated with larger old-task loss increases after continual training. Motivated by these findings, we propose MH-MoE, which performs head-wise routing over sub-representations to increase routing granularity and reduce composition collisions. On TRACE with Qwen3-0.6B/8B, MH-MoE effectively mitigates forgetting, reducing BWT on Qwen3-0.6B from 11.2% (LoRAMoE) to 4.5%.
- Abstract(参考訳): MoE(Mixture-of-Experts)アーキテクチャは、スパースルーティングが更新をローカライズし、干渉を減らす必要があるため、継続的な学習に適していると考えられがちである。
マルチヘッドアテンションは、ヘッド固有の信号を単一のアテンション後ルータ入力に結合し、ルーティングを分離可能なヘッドチャネルではなく、共起的な特徴合成に実行させる。
このルータ入力は、複数の分離可能なセマンティックおよび構造的要素を同時に符号化し、異なる特徴成分が弱い整列パラメータ勾配方向を誘導することを示す。
我々はこの衝突効果をルートワイド有効合成数$N_{eff}$で定量化し、高い$N_{eff}$が連続訓練後のより大きな古いタスク損失の増加と関連していることを示す。
これらの知見に触発されたMH-MoEを提案する。これはサブ表現を頭部的にルーティングすることで、ルーティングの粒度を増大させ、合成衝突を減らす。
Qwen3-0.6B/8BのTRACEでは、MH-MoEは事実上忘れを軽減し、Qwen3-0.6B上のBWTを11.2%(LoRAMoE)から4.5%に削減した。
関連論文リスト
- Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts [32.65737144630759]
Mixture-of-Experts (MoE)アーキテクチャは、パラメトリックな"router"を使用して、トークンを専門家のまばらなサブセットにディスパッチすることで、大きな言語モデルを効率的にスケールする。
我々は、類似したケースのメモリから最適な専門家の割り当てを再利用する検索強化ルーティングフレームワークであるkNN-MoEを紹介する。
実験の結果、kNN-MoEはゼロショットベースラインよりも優れており、計算コストのかかる微調整に匹敵することがわかった。
論文 参考訳(メタデータ) (2026-01-05T14:16:11Z) - Route-DETR: Pairwise Query Routing in Transformers for Object Detection [11.46025964297103]
Detection Transformer (DETR) はオブジェクト検出のためのエンドツーエンドソリューションを提供する。
DETRは、複数のクエリが同じ位置に収束する非効率なクエリ競合に悩まされている。
本稿では,デコーダの自己アテンション層における適応的ペアワイズルーティングを通じて,これらの問題に対処するRoute-DETRを提案する。
論文 参考訳(メタデータ) (2025-12-15T20:26:58Z) - Flash Multi-Head Feed-Forward Network [51.82159978122374]
マルチヘッドFFN(MH-FFN)は、単一ヘッドアテンションとFFNの構造的類似性によって動機付けられる。
MH-FFNは、ヘッドカウントによるメモリ消費のスケーリングと、中間サイズと固定ヘッド次元の間の不均衡比の2つの課題に直面している。
我々はFlash Multi-Head FFN (FlashMHF) を提案し、I/O対応の核計算出力はFlashAttentionと同様のオンライン出力であり、動的に重み付けされた並列サブネットワークを用いた設計である。
論文 参考訳(メタデータ) (2025-12-07T20:50:20Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - Mixture of Routers [16.169900017745327]
我々は、Mixture of Routers (MoR) と呼ばれる効率的な微調整法を提案する。
MoRはジョイントセレクションに複数のサブルータを使用し、学習可能なメインルータを使用してサブルータの重みを決定する。
その結果、MoRは、ほとんどのタスクにおいてベースラインモデルよりも優れており、平均的なパフォーマンス改善は1%であることがわかった。
論文 参考訳(メタデータ) (2025-03-30T08:39:09Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。