論文の概要: Multi-Head Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2404.15045v1
- Date: Tue, 23 Apr 2024 13:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:42:03.377985
- Title: Multi-Head Mixture-of-Experts
- Title(参考訳): Multi-Head Mixture-of-Experts
- Authors: Xun Wu, Shaohan Huang, Wenhui Wang, Furu Wei,
- Abstract要約: MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
- 参考スコア(独自算出の注目度): 100.60556163597946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixtures of Experts (SMoE) scales model capacity without significant increases in training and inference costs, but exhibits the following two issues: (1) Low expert activation, where only a small subset of experts are activated for optimization. (2) Lacking fine-grained analytical capabilities for multiple semantic concepts within individual tokens. We propose Multi-Head Mixture-of-Experts (MH-MoE), which employs a multi-head mechanism to split each token into multiple sub-tokens. These sub-tokens are then assigned to and processed by a diverse set of experts in parallel, and seamlessly reintegrated into the original token form. The multi-head mechanism enables the model to collectively attend to information from various representation spaces within different experts, while significantly enhances expert activation, thus deepens context understanding and alleviate overfitting. Moreover, our MH-MoE is straightforward to implement and decouples from other SMoE optimization methods, making it easy to integrate with other SMoE models for enhanced performance. Extensive experimental results across three tasks: English-focused language modeling, Multi-lingual language modeling and Masked multi-modality modeling tasks, demonstrate the effectiveness of MH-MoE.
- Abstract(参考訳): SMOE(Sparse Mixtures of Experts)は、トレーニングや推論コストを大幅に向上させることなく、モデルのキャパシティをスケールするが、以下の2つの課題を示す。
2)個々のトークン内の複数の意味概念に対するきめ細かい分析能力の欠如。
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
これらのサブトークンは、さまざまな専門家によって並列に割り当てられ、処理され、シームレスに元のトークン形式に再統合される。
マルチヘッド機構により、モデルは様々な専門家の様々な表現空間からの情報に一括して参加できると同時に、専門家のアクティベーションを大幅に向上し、コンテキスト理解の深化と過剰適合の軽減を可能にする。
さらに、我々のMH-MoEは、他のSMoE最適化手法の実装と切り離しが容易であり、性能向上のために他のSMoEモデルと容易に統合できる。
英語中心の言語モデリング,多言語モデリング,マルチモーダリティ・モデリングタスク,マルチモーダリティ・モデリングタスク,MH-MoEの有効性を実証した。
関連論文リスト
- Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Diversifying the Mixture-of-Experts Representation for Language Models
with Orthogonal Optimizer [62.41501243027603]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,エキスパートエンティティであるOMoEという,単純かつ高効率なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Task-Based MoE for Multitask Multilingual Machine Translation [58.20896429151824]
Mixture-of-experts (MoE)アーキテクチャは、多くのアプリケーションで深層モデルのトレーニングにおいて、多様なタスクのための強力な手法であることが証明されている。
本研究では,タスク情報を異なる粒度レベルでMoEモデルに組み込む新しい手法を,動的タスクベースアダプタの共有により設計する。
論文 参考訳(メタデータ) (2023-08-30T05:41:29Z) - D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:47:35Z) - Towards Being Parameter-Efficient: A Stratified Sparsely Activated
Transformer with Dynamic Capacity [37.04254056062765]
Stratified Mixture of Experts (SMoE)モデルは、異なるトークンに動的キャパシティを割り当てることができる。
SMoEは、同じまたは少ないパラメータで複数の最先端MoEモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-03T15:18:18Z) - Heterogeneous Multi-task Learning with Expert Diversity [15.714385295889944]
そこで我々は,高度不均衡で異種なMTL学習に適した表現を,専門家の間でより多様な表現を導き出すアプローチを提案する。
我々は,集中治療のための医療情報マート (MIMIC-III) と PubChem Bio Assay (PCBA) の3つのMTLベンチマークデータセットに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-06-20T01:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。