論文の概要: T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning
- arxiv url: http://arxiv.org/abs/2404.08985v2
- Date: Tue, 27 May 2025 06:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:57.973083
- Title: T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning
- Title(参考訳): T-REX:多タスク大言語モデルファインタニングのための意味認識直観を用いた一音混合実験
- Authors: Rongyu Zhang, Yijiang Liu, Huanrui Yang, Shenli Zheng, Dan Wang, Yuan Du, Li Du, Shanghang Zhang,
- Abstract要約: 大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
- 参考スコア(独自算出の注目度): 31.276142111455847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) encounter significant adaptation challenges in diverse multitask finetuning. Mixture-of-experts (MoE) provides a promising solution with a dynamic architecture, enabling effective task decoupling. However, scaling up the number of MoE experts incurs substantial parameter and computational overheads and suffers from limited performance gain due to naive routing mechanisms. In this paper, we design a novel framework, mix\underline{\textbf{T}}ure\underline{\textbf{-}}of-\underline{\textbf{R}}ank-on\underline{\textbf{E}}-e\underline{\textbf{X}}perts (\texttt{T-REX}), which leverages the combination of ultra-low rank experts to construct LoRA weights on pretrained LLMs. The rank-1 experts enable a mix-and-match mechanism to quadratically expand the vector subspace of experts with linear parameter overheads, achieving approximate error reduction with optimal efficiency. In addition, T-REX offers implicit guidance to the router, leveraging the inherent semantic clustering of training embeddings as prior knowledge, enabling optimized feature allocation across experts for a smoother convergence. Extensive theoretical and empirical results demonstrate that T-REX achieves superior efficiency and generalizability across diverse tasks. Compared with other LoRA-based methods, T-REX achieves up to 1.78\% mean accuracy improvement with around 30\%-40\% less trainable parameters across 14 public datasets. \href{https://github.com/RoyZry98/T-REX-Pytorch}{Code} is available.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
Mixture-of-Experts (MoE) は動的アーキテクチャで有望なソリューションを提供する。
しかし、MoEの専門家の数をスケールアップすると、パラメータや計算上のオーバーヘッドが大きくなり、単純なルーティング機構によるパフォーマンス向上が制限される。
本稿では,超低ランクの専門家によるLLM上でのLORA重み構築に利用した新しいフレームワークであるmix\underline{\textbf{T}}ure\underline{\textbf{-}}of-\underline{\textbf{R}}ank-on\underline{\textbf{E}}-e\underline{\textbf{X}}perts (\texttt{T-REX})を設計する。
ランク1の専門家は、ミキシング・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つ専門家のベクトル部分空間を2次的に拡張し、最適効率で近似誤差の削減を達成できる。
さらに、T-REXはルータに対して暗黙のガイダンスを提供し、トレーニング埋め込みの固有のセマンティッククラスタリングを事前知識として活用することで、専門家間でのフィーチャ割り当てを最適化し、よりスムーズな収束を可能にする。
T-REXは多種多様なタスクにまたがって優れた効率と一般化性を達成できることを示した。
他のLoRAベースの方法と比較して、T-REXは14の公開データセットでトレーニング可能なパラメータを約30~40倍減らして、平均精度を最大1.78倍に向上させる。
\href{https://github.com/RoyZry98/T-REX-Pytorch}{Code} が利用可能である。
関連論文リスト
- MaZO: Masked Zeroth-Order Optimization for Multi-Task Fine-Tuning of Large Language Models [26.980104922985326]
本稿では,ZO最適化下でのマルチタスクLLMファインチューニング用に設計された最初のフレームワークであるMaZOを紹介する。
MaZOは2つの重要な革新を通じてパラメータレベルでこれらの課題に取り組む: 臨界パラメータを識別する重みの重みの指標と、これらのパラメータを選択的に更新するマルチタスクの重みの更新マスクである。
実験により、MaZOは、一階最適化のために設計されたマルチタスク学習手法を超越して、最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-17T07:28:52Z) - Meta-Sparsity: Learning Optimal Sparse Structures in Multi-task Networks through Meta-learning [4.462334751640166]
Meta-sparsityは、ディープニューラルネットワーク(DNN)がマルチタスク学習環境で最適なスパース共有構造を生成することを可能にする、モデルのスパーシティを学習するためのフレームワークである。
Model Agnostic Meta-Learning (MAML)に触発され、マルチタスクシナリオにおける共有パラメータと最適なスパースパラメータの学習に重点を置いている。
メタスパーシティーの有効性は、2つのデータセットに対する広範な実験によって厳格に評価されている。
論文 参考訳(メタデータ) (2025-01-21T13:25:32Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts [6.245113492272563]
Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。
我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
論文 参考訳(メタデータ) (2024-08-02T18:05:10Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Task Aware Feature Extraction Framework for Sequential Dependence
Multi-Task Learning [1.0765359420035392]
我々は厳密な数学的観点から逐次依存型MLLを解析する。
逐次依存型MLLのためのタスク認識特徴抽出(TAFE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-06T13:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。