論文の概要: UMoE: Unifying Attention and FFN with Shared Experts
- arxiv url: http://arxiv.org/abs/2505.07260v1
- Date: Mon, 12 May 2025 06:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.275795
- Title: UMoE: Unifying Attention and FFN with Shared Experts
- Title(参考訳): UMoE: 関心とFFNを共有専門家と統合
- Authors: Yuanhang Yang, Chaozheng Wang, Jing Li,
- Abstract要約: 本稿では,アテンションモジュール内のFFN様構造を明らかにすることで,アテンション機構の新たな再構築を提案する。
提案アーキテクチャであるUMoEは,注目層を用いたMoEにより優れた性能を実現する。
- 参考スコア(独自算出の注目度): 5.264428757963819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture of Experts (MoE) architectures have emerged as a promising approach for scaling Transformer models. While initial works primarily incorporated MoE into feed-forward network (FFN) layers, recent studies have explored extending the MoE paradigm to attention layers to enhance model performance. However, existing attention-based MoE layers require specialized implementations and demonstrate suboptimal performance compared to their FFN-based counterparts. In this paper, we aim to unify the MoE designs in attention and FFN layers by introducing a novel reformulation of the attention mechanism, revealing an underlying FFN-like structure within attention modules. Our proposed architecture, UMoE, achieves superior performance through attention-based MoE layers while enabling efficient parameter sharing between FFN and attention components.
- Abstract(参考訳): Sparse Mixture of Experts (MoE)アーキテクチャは、Transformerモデルをスケールするための有望なアプローチとして登場した。
初期の研究は、主にMoEをフィードフォワードネットワーク(FFN)層に組み込んだが、最近の研究では、MoEパラダイムを注意層に拡張してモデル性能を向上させることを検討している。
しかし、既存のアテンションベースのMoE層は、FFNベースの層と比較して、特別な実装を必要とし、準最適性能を示す。
本稿では,注目モジュール内に基盤となるFFN様構造を呈し,新しいアテンション機構を導入することで,MoE設計を注目層とFFN層に統一することを目的とする。
提案アーキテクチャであるUMoEは、FFNとアテンションコンポーネント間の効率的なパラメータ共有を実現するとともに、アテンションベースのMoE層による優れた性能を実現する。
関連論文リスト
- MoFE: Mixture of Frozen Experts Architecture [0.3959905439285648]
MoFEアーキテクチャは、微細チューニング(PEFT)とMixture of Experts(MoE)アーキテクチャを統合し、トレーニング効率とモデルのスケーラビリティを向上させる。
MoEフレームワーク内のFeed Forward Networkレイヤを凍結することにより、トレーニング可能なパラメータの数を大幅に削減し、トレーニング効率を向上させると同時に、エキスパートモデルからの効果的な知識伝達を可能にする。
我々は、性能と効率のトレードオフを評価し、MoFEを他のPEFT手法と比較し、構成モデルにおけるドメインの専門知識の影響を評価し、最適なトレーニング戦略を決定する実験を行う。
論文 参考訳(メタデータ) (2025-03-09T07:24:36Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - ViMoE: An Empirical Study of Designing Vision Mixture-of-Experts [71.11994027685974]
我々は、MoE構造をViT(Vision Transformer)に統合し、ViMoEと命名し、MoEを視覚に適用する可能性を探る。
性能はMoE層の構成に敏感であり,設計を慎重に行わずに最適な結果を得ることが困難である。
これを解決するために、共有専門家を導入し、共通情報を学習し、取得し、安定したViMoEを構築する効果的な方法として役立てる。
論文 参考訳(メタデータ) (2024-10-21T07:51:17Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [14.858134039539697]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。
本稿では,BAM(Branch-Attend-Mix)を提案する。
5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文 参考訳(メタデータ) (2024-08-15T17:19:12Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Explaining Modern Gated-Linear RNNs via a Unified Implicit Attention Formulation [54.50526986788175]
効率的なシーケンスモデリングの最近の進歩は、Mamba、RWKV、および様々なゲートRNNのような注意のないレイヤーを生み出している。
我々はこれらのモデルの統一的なビューを示し、暗黙の因果自己注意層のような層を定式化する。
筆者らのフレームワークは,異なるレイヤに対する類似の基盤となるメカニズムを比較検討し,説明可能性の手法を直接適用する手段を提供する。
論文 参考訳(メタデータ) (2024-05-26T09:57:45Z) - Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。
MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。
MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文 参考訳(メタデータ) (2022-10-11T04:54:05Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。