論文の概要: PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning
- arxiv url: http://arxiv.org/abs/2407.21571v1
- Date: Wed, 31 Jul 2024 12:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:02:39.921960
- Title: PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning
- Title(参考訳): PMoE: 連続学習のための非対称変圧器を用いたプログレッシブ・ミックス
- Authors: Min Jae Jung, JooHee Kim,
- Abstract要約: 非対称トランスを用いたPMOE(Progressive Mixture of Experts with Asymmetric Transformer)を導入する。
PMoEは、深層に徐々に加えられたエキスパートと、適切な専門家に効率的に新しい知識を割り当てるルータを組み込んでいる。
TRACEデータセットと一般言語理解データセットの実験は、提案されたPMoEが従来の最先端アプローチよりも優れていることを示した。
- 参考スコア(独自算出の注目度): 4.0208298639821525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) encounter significant challenges in continual learning due to catastrophic forgetting, where new information overwrites previously acquired knowledge. This limitation leads to substantial environmental and economic waste. In this study, we introduce the PMoE, Progressive Mixture of Experts with Asymmetric Transformer, which aims to minimize forgetting by utilizing an asymmetric design with shallow layers dedicated to general knowledge and deep layers for new knowledge. PMoE incorporates progressively added experts in deep layers and a router that allocates new knowledge to the appropriate experts efficiently. The router, positioned adjacent to the deep layers, utilizes deep features aggregating consolidated information. This enables the router to perform efficiently, allocating new knowledge to the appropriate experts, which progressively increase in the deep layers. Extensive experiments on TRACE datasets and general language understanding datasets demonstrate that the proposed PMoE outperforms previous state-of-the-art approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)は、これまで獲得した知識を新しい情報が上書きする破滅的な忘れ込みによって、継続的な学習において重大な課題に直面する。
この制限は、実質的な環境と経済の浪費につながる。
本研究では,非対称トランスを用いたプログレッシブ・ミックス・オブ・エキスパート(PMOE, Progressive Mixture of Experts with Asymmetric Transformer)を紹介する。
PMoEは、深層に徐々に加えられたエキスパートと、適切な専門家に効率的に新しい知識を割り当てるルータを組み込んでいる。
ディープ層に隣接した位置にあるルータは、統合された情報を集約するディープ特徴を利用する。
これにより、ルータが効率的に動作し、適切な専門家に新たな知識を割り当てることが可能になる。
TRACEデータセットと一般言語理解データセットに関する大規模な実験は、提案されたPMoEが従来の最先端アプローチよりも優れていることを示した。
関連論文リスト
- Efficient and Deployable Knowledge Infusion for Open-World Recommendations via Large Language Models [53.547190001324665]
大規模言語モデル(LLM)からユーザとアイテムに関する2種類の外部知識を取得するためのREKIを提案する。
個別の知識抽出と個別の知識抽出を,異なるシナリオのスケールに合わせて開発し,オフラインのリソース消費を効果的に削減する。
実験によると、REKIは最先端のベースラインより優れており、多くの推奨アルゴリズムやタスクと互換性がある。
論文 参考訳(メタデータ) (2024-08-20T03:45:24Z) - Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。
言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文 参考訳(メタデータ) (2024-07-04T20:59:20Z) - Multi-Task Dense Prediction via Mixture of Low-Rank Experts [35.11968315125389]
MLoRE(Mixture-of-Low-Rank-Experts)と呼ばれる,マルチタスクの高密度予測のためのデコーダに着目した新しい手法を提案する。
グローバルなタスク関係をモデル化するために、MLoREは元のMoE構造に汎用的な畳み込みパスを追加し、各タスク機能は、明示的なパラメータ共有のためにこのパスを通ることができる。
実験の結果,MLoREは従来のすべてのメトリクスの最先端手法に比べて優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-26T14:40:17Z) - HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts [25.504602853436047]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。
我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。
このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文 参考訳(メタデータ) (2024-02-20T02:09:55Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Exploiting Explainable Metrics for Augmented SGD [43.00691899858408]
最適化下での学習が実際にどのように機能するか、また、特定の戦略が他の方法よりも優れている理由について、未解決の疑問がいくつかある。
ネットワーク層内の冗長な情報を計測する新しい説明可能性指標を提案する。
次に、これらの指標を利用して、各レイヤの学習率を適応的に調整し、一般化性能を向上させることにより、グラディエント・ディフレッシュ(SGD)を増大させる。
論文 参考訳(メタデータ) (2022-03-31T00:16:44Z) - Adversarial Imitation Learning with Trajectorial Augmentation and
Correction [61.924411952657756]
本稿では,拡張軌道の成功を保った新しい拡張手法を提案する。
我々は, 合成専門家を用いた模倣エージェントの訓練を行うために, 逆データ拡張模倣アーキテクチャを開発した。
実験により,我々のデータ拡張戦略は,敵対的模倣の精度と収束時間を向上できることが示された。
論文 参考訳(メタデータ) (2021-03-25T14:49:32Z) - Multi-Pass Transformer for Machine Translation [51.867982400693194]
我々は、後続のレイヤの出力に照らして、以前のレイヤが情報を処理できるマルチパストランスフォーマー(MPT)アーキテクチャについて検討する。
MPTは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。
ハード接続の場合、En-Deの最適接続パターンはEn-Frの性能も向上する。
論文 参考訳(メタデータ) (2020-09-23T21:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。