Fugu-MT 論文翻訳(概要): AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach

論文の概要: AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach

arxiv url: http://arxiv.org/abs/2410.10896v2
Date: Sat, 19 Oct 2024 02:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.387116
Title: AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach
Title（参考訳）: AT-MoE:LoRAアプローチによるエキスパートの適応的タスク計画混合
Authors: Xurui Li, Juanjuan Yao,
Abstract要約: 本稿では,Adaptive Task-planing Mixture of Experts(AT-MoE)アーキテクチャを紹介する。まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。次に,複雑なタスク命令に基づくモジュール融合を最適化する階層適応型グループルーティングモジュールを提案する。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advent of Large Language Models (LLMs) has ushered in a new era of artificial intelligence, with the potential to transform various sectors through automation and insightful analysis. The Mixture of Experts (MoE) architecture has been proposed as a solution to enhance model performance in complex tasks. Yet, existing MoE models struggle with task-specific learning and interpretability, especially in fields like medicine where precision is critical. This paper introduces the Adaptive Task-planing Mixture of Experts(AT-MoE), an innovative architecture designed to address these limitations. We first train task-specific experts via LoRA approach to enhance problem-solving capabilities and interpretability in specialized areas. Subsequently, we introduce a layer-wise adaptive grouped routing module that optimizes module fusion based on complex task instructions, ensuring optimal task resolution. The grouped routing module first perform overall weight allocation from the dimension of the expert group, and then conduct local weight normalization adjustments within the group. This design maintains multi-dimensional balance, controllability, and interpretability, while facilitating task-specific fusion in response to complex instructions.
Abstract（参考訳）: 大規模言語モデル(LLM)の出現は、自動化と洞察に富んだ分析を通じて、さまざまな分野を変革する可能性を持つ、人工知能の新しい時代を後押ししてきた。複雑なタスクにおけるモデル性能を向上させるソリューションとして、Mixture of Experts (MoE)アーキテクチャが提案されている。しかし、既存のMoEモデルは、特に精度が重要である医学のような分野において、タスク固有の学習と解釈可能性に苦慮している。本稿では,これらの制約に対処する革新的なアーキテクチャであるAdaptive Task-planing Mixture of Experts(AT-MoE)を紹介する。まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。次に、複雑なタスク命令に基づいてモジュール融合を最適化し、最適なタスク解決を保証する階層適応型グループ化ルーティングモジュールを提案する。グループ化されたルーティングモジュールは、まずエキスパートグループの次元から全体の重量割り当てを行い、その後、グループ内で局所的な重量正規化調整を行う。この設計は多次元のバランス、制御可能性、解釈可能性を維持しつつ、複雑な命令に応答してタスク固有の融合を容易にする。

関連論文リスト

Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning [45.019751165506946]
マルチモーダル大規模言語モデル(MLLM)を進化タスクに適用するには,連続的マルチモーダル命令チューニングが不可欠である。そこで本稿では,MLLMのアーキテクチャをパラメータ予算で自動的に進化させ,新しいタスクに継続的に適応する新しいD-MoLE法を提案する。具体的には、動的レイヤワイド・エキスパート・アロケータを提案し、アーキテクチャの衝突を解決するために、レイヤ間でLoRA専門家を自動的に割り当てる。そこで我々は,MLLMにおける各モジュールの更新率を,各モジュールの難易度に基づいて調整する,勾配に基づくモーダル間連続カリキュラムを提案する。
論文参考訳（メタデータ） (2025-06-13T11:03:46Z)
Mixture of Group Experts for Learning Invariant Representations [25.935653652324532]
わずかに活性化されたMixture-of-Experts (MoE)モデルはトークン当たりの一貫した計算コストを維持しながらパラメータ数を効果的に増加させる。スパース表現にインスパイアされた上位$kのルーティングによるバニラMOEの新しい視点を示す。グループエキスパートの混合(Mixture of Group Experts, MOGE)と呼ばれるトップ$kのルーティング入力に対するグループスパース正規化手法を提案する。
論文参考訳（メタデータ） (2025-04-12T15:58:02Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 2つの重要な特徴を持つ新しいRECデータセットを導入する。第一に、オブジェクトカテゴリ、属性、関係性に関する詳細な推論を必要とする、制御可能な難易度で設計されている。第二に、微粒な編集によって生成された否定的なテキストと画像が組み込まれ、既存のターゲットを拒否するモデルの能力を明示的にテストする。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文参考訳（メタデータ） (2024-11-27T15:58:07Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
Glider: Global and Local Instruction-Driven Expert Router [83.785832410832]
モデルMoErging」手法は、保持タスクのパフォーマンスを犠牲にして、未確認タスクへの一般化を優先する。マルチスケールルーティング機構を統合したGLIDER(Global and Local Instruction Driven Expert Router)を提案する。 GLIDERは、ホールドアウトタスクの強い一般化を維持しながら、ホールドイン性能を大幅に改善する。
論文参考訳（メタデータ） (2024-10-09T17:59:14Z)
Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。 LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文参考訳（メタデータ） (2024-10-01T16:10:21Z)
Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文参考訳（メタデータ） (2024-03-12T13:41:15Z)
Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language Models [7.966452497550907]
大規模言語モデル(LLM)を用いたマルチタスク学習のためのMixture-of-LoRA(MoA)アーキテクチャを提案する。複数のドメイン固有のLoRAモジュールは、Mixture-of-Experts(MoE)で観察される専門家設計原則と一致させることができる。各LoRAモデルは、新しいドメインに反復的に適応することができ、素早くドメイン固有の適応を可能にする。
論文参考訳（メタデータ） (2024-03-06T03:33:48Z)
Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合 MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。 InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文参考訳（メタデータ） (2023-12-19T18:11:19Z)
JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文参考訳（メタデータ） (2023-06-19T15:45:36Z)
Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。単一モデルのトレーニング中に、このマッチングプロセスを最適化する。 13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2022-12-15T18:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。