論文の概要: AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach
- arxiv url: http://arxiv.org/abs/2410.10896v2
- Date: Sat, 19 Oct 2024 02:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:59.521084
- Title: AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach
- Title(参考訳): AT-MoE:LoRAアプローチによるエキスパートの適応的タスク計画混合
- Authors: Xurui Li, Juanjuan Yao,
- Abstract要約: 本稿では,Adaptive Task-planing Mixture of Experts(AT-MoE)アーキテクチャを紹介する。
まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。
次に,複雑なタスク命令に基づくモジュール融合を最適化する階層適応型グループルーティングモジュールを提案する。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License:
- Abstract: The advent of Large Language Models (LLMs) has ushered in a new era of artificial intelligence, with the potential to transform various sectors through automation and insightful analysis. The Mixture of Experts (MoE) architecture has been proposed as a solution to enhance model performance in complex tasks. Yet, existing MoE models struggle with task-specific learning and interpretability, especially in fields like medicine where precision is critical. This paper introduces the Adaptive Task-planing Mixture of Experts(AT-MoE), an innovative architecture designed to address these limitations. We first train task-specific experts via LoRA approach to enhance problem-solving capabilities and interpretability in specialized areas. Subsequently, we introduce a layer-wise adaptive grouped routing module that optimizes module fusion based on complex task instructions, ensuring optimal task resolution. The grouped routing module first perform overall weight allocation from the dimension of the expert group, and then conduct local weight normalization adjustments within the group. This design maintains multi-dimensional balance, controllability, and interpretability, while facilitating task-specific fusion in response to complex instructions.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、自動化と洞察に富んだ分析を通じて、さまざまな分野を変革する可能性を持つ、人工知能の新しい時代を後押ししてきた。
複雑なタスクにおけるモデル性能を向上させるソリューションとして、Mixture of Experts (MoE)アーキテクチャが提案されている。
しかし、既存のMoEモデルは、特に精度が重要である医学のような分野において、タスク固有の学習と解釈可能性に苦慮している。
本稿では,これらの制約に対処する革新的なアーキテクチャであるAdaptive Task-planing Mixture of Experts(AT-MoE)を紹介する。
まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。
次に、複雑なタスク命令に基づいてモジュール融合を最適化し、最適なタスク解決を保証する階層適応型グループ化ルーティングモジュールを提案する。
グループ化されたルーティングモジュールは、まずエキスパートグループの次元から全体の重量割り当てを行い、その後、グループ内で局所的な重量正規化調整を行う。
この設計は多次元のバランス、制御可能性、解釈可能性を維持しつつ、複雑な命令に応答してタスク固有の融合を容易にする。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Glider: Global and Local Instruction-Driven Expert Router [83.785832410832]
モデルMoErging」手法は、保持タスクのパフォーマンスを犠牲にして、未確認タスクへの一般化を優先する。
マルチスケールルーティング機構を統合したGLIDER(Global and Local Instruction Driven Expert Router)を提案する。
GLIDERは、ホールドアウトタスクの強い一般化を維持しながら、ホールドイン性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:14Z) - Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。
LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。
訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文 参考訳(メタデータ) (2024-10-01T16:10:21Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language
Models [7.966452497550907]
大規模言語モデル(LLM)を用いたマルチタスク学習のためのMixture-of-LoRA(MoA)アーキテクチャを提案する。
複数のドメイン固有のLoRAモジュールは、Mixture-of-Experts(MoE)で観察される専門家設計原則と一致させることができる。
各LoRAモデルは、新しいドメインに反復的に適応することができ、素早くドメイン固有の適応を可能にする。
論文 参考訳(メタデータ) (2024-03-06T03:33:48Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。
InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z) - JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文 参考訳(メタデータ) (2023-06-19T15:45:36Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。