論文の概要: Dynamic Adaptive Shared Experts with Grouped Multi-Head Attention Mixture of Experts
- arxiv url: http://arxiv.org/abs/2509.10530v1
- Date: Fri, 05 Sep 2025 02:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.790087
- Title: Dynamic Adaptive Shared Experts with Grouped Multi-Head Attention Mixture of Experts
- Title(参考訳): グループ型多面的注意混合を用いた動的適応型共有エキスパート
- Authors: Cheng Li, Jiexiong Liu, Yixuan Chen, Jie ji,
- Abstract要約: 本稿では,DASG-MoE(Dynamic Adaptive Shared Expert and Grouped Multi-Head Attention Hybrid Model)を提案する。
まず,グループ型マルチヘッドアテンション(GMHA)機構を用いて,長い列の計算複雑性を効果的に低減する。
第2に、浅瀬の専門家が軽量な計算を用いて低次元の特徴に迅速に対応できるDual-Scale Shared Expert Structure (DSSE)を設計する。
第3に,機能複雑性とタスク要求に基づいて,専門家レベルを動的に選択する階層型適応動的ルーティング(ADR)機構を提案する。
- 参考スコア(独自算出の注目度): 10.204413386807564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models based on the Mixture of Experts (MoE) architecture have made significant progress in long-sequence modeling, but existing models still have shortcomings in computational efficiency and the ability to capture long-range dependencies, especially in terms of the dynamic adaptability of expert resource allocation. In this paper, we propose a Dynamic Adaptive Shared Expert and Grouped Multi-Head Attention Hybrid Model (DASG-MoE) to enhance long-sequence modeling capabilities by integrating three modules. First, we employ the Grouped Multi-Head Attention (GMHA) mechanism to effectively reduce the computational complexity of long sequences. By parallel processing through sequence grouping, local sliding window attention, and feature aggregation, we address long-range dependency issues and the model's lack of generalization for local information. Second, we design a Dual-Scale Shared Expert Structure (DSSE), where shallow experts use lightweight computations to quickly respond to low-dimensional features, while deep experts process high-dimensional complex semantics through pre-training transfer and post-training optimization, achieving a dynamic balance between efficiency and accuracy. Third, we propose a hierarchical Adaptive Dynamic Routing (ADR) mechanism that dynamically selects expert levels based on feature complexity and task requirements, and optimizes resource allocation through a local expert activation strategy. Experiments on multiple long-sequence benchmark datasets demonstrate that our DASG-MoE model outperforms state-of-the-art models.
- Abstract(参考訳): Mixture of Experts (MoE) アーキテクチャに基づくトランスフォーマーモデルは、長いシーケンスモデリングにおいて大きな進歩を遂げているが、既存のモデルは、特にエキスパートリソース割り当ての動的適応性の観点から、計算効率と長距離依存性をキャプチャする能力にはまだ欠点がある。
本稿では,3つのモジュールを統合することで長周期モデリング機能を向上させるために,動的適応型共有エキスパートとグループ型マルチヘッドアテンションハイブリッドモデル(DASG-MoE)を提案する。
まず,グループ型マルチヘッドアテンション(GMHA)機構を用いて,長い列の計算複雑性を効果的に低減する。
シーケンスグルーピング、局所的スライディングウィンドウアテンション、特徴集約による並列処理により、長距離依存性問題と局所情報の一般化の欠如に対処する。
第2に、浅層専門家が軽量な計算を用いて低次元特徴に迅速に対応し、深層専門家が事前学習の伝達と後学習の最適化を通じて高次元の複雑な意味論を処理し、効率と精度の動的バランスを実現するDual-Scale Shared Expert Structure (DSSE) を設計する。
第3に、特徴複雑性とタスク要求に基づいて、動的に専門家レベルを選択する階層的適応動的ルーティング(ADR)機構を提案し、ローカルなエキスパートアクティベーション戦略を通じてリソース割り当てを最適化する。
複数の時系列ベンチマークデータセットの実験により、私たちのDASG-MoEモデルは最先端のモデルよりも優れています。
関連論文リスト
- MICACL: Multi-Instance Category-Aware Contrastive Learning for Long-Tailed Dynamic Facial Expression Recognition [12.538204312275935]
動的マルチスケールカテゴリー対応コントラスト学習(LMCC)と呼ばれる新しいマルチインスタンスモデル学習フレームワークを提案する。
LMCC メジャーとマイナーのバランストレーニング。
フィールド内データセットの実験により、MICは優れた顔と一般化で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-09-04T16:03:14Z) - DMSC: Dynamic Multi-Scale Coordination Framework for Time Series Forecasting [14.176801586961286]
時系列予測(TSF)は、さまざまなスケールにわたる複雑な時間的依存関係をモデル化する上で、永続的な課題に直面します。
マルチスケールパッチ分解ブロック(EMPD)、トライアドインタラクションブロック(TIB)、適応スケールルーティングMoEブロック(ASR-MoE)を備えた新しい動的マルチスケールコーディネーションフレームワーク(DMSC)を提案する。
EMPDは、指数関数的にスケールした粒度を持つ階層的なパッチにシーケンスを動的に分割する組み込みコンポーネントとして設計されている。
TIBは、各レイヤの分解された表現の中で、パッチ内、パッチ間、およびクロス変数の依存関係を共同でモデル化する。
論文 参考訳(メタデータ) (2025-08-03T13:11:52Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。
エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。
実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文 参考訳(メタデータ) (2025-06-03T04:19:47Z) - STAR-Rec: Making Peace with Length Variance and Pattern Diversity in Sequential Recommendation [61.320991769685065]
STAR-Recは、好みを認識した注意と状態空間モデリングを組み合わせた新しいアーキテクチャである。
STAR-Recは、最先端のシーケンシャルレコメンデーション手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-06T12:40:38Z) - A Deep Learning Framework for Sequence Mining with Bidirectional LSTM and Multi-Scale Attention [11.999319439383918]
本稿では、複雑なシーケンスデータにおける潜在パターンのマイニングとコンテキスト依存のモデル化の課題に対処する。
Bidirectional Long Short-Term Memory (BiLSTM) とマルチスケールアテンション機構を組み合わせたシーケンスパターンマイニングアルゴリズムを提案する。
BiLSTMはシーケンスの前方および後方の依存関係をキャプチャし、グローバルなコンテキスト構造を知覚するモデルの能力を高める。
論文 参考訳(メタデータ) (2025-04-21T16:53:02Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。