論文の概要: Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning
- arxiv url: http://arxiv.org/abs/2404.08985v1
- Date: Sat, 13 Apr 2024 12:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 17:43:54.789929
- Title: Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning
- Title(参考訳): パラメータ効率的なファインタニングのための直観認識混合-Rank-1-Experts
- Authors: Yijiang Liu, Rongyu Zhang, Huanrui Yang, Kurt Keutzer, Yuan Du, Li Du, Shanghang Zhang,
- Abstract要約: 大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
- 参考スコア(独自算出の注目度): 50.73666458313015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated significant potential in performing multiple tasks in multimedia applications, ranging from content generation to interactive entertainment, and artistic creation. However, the diversity of downstream tasks in multitask scenarios presents substantial adaptation challenges for LLMs. While traditional methods often succumb to knowledge confusion on their monolithic dense models, Mixture-of-Experts (MoE) has been emerged as a promising solution with its sparse architecture for effective task decoupling. Inspired by the principles of human cognitive neuroscience, we design a novel framework \texttt{Intuition-MoR1E} that leverages the inherent semantic clustering of instances to mimic the human brain to deal with multitask, offering implicit guidance to router for optimized feature allocation. Moreover, we introduce cutting-edge Rank-1 Experts formulation designed to manage a spectrum of intuitions, demonstrating enhanced parameter efficiency and effectiveness in multitask LLM finetuning. Extensive experiments demonstrate that Intuition-MoR1E achieves superior efficiency and 2.15\% overall accuracy improvement across 14 public datasets against other state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンテンツ生成からインタラクティブエンターテイメント、芸術的創造に至るまで、マルチメディアアプリケーションで複数のタスクを実行する大きな可能性を示してきた。
しかし、マルチタスクシナリオにおける下流タスクの多様性は、LLMにかなりの適応課題をもたらす。
従来の手法は、モノリシックな高密度モデルに関する知識の混乱に悩まされることが多いが、Mixture-of-Experts (MoE) は、そのスパースアーキテクチャによる効率的なタスクデカップリングのための有望なソリューションとして現れてきた。
人間の認知神経科学の原理に触発されて、我々は、インスタンスの固有のセマンティッククラスタリングを利用して、マルチタスクに対処する人間の脳を模倣し、最適化された特徴割り当てのためのルータへの暗黙のガイダンスを提供する新しいフレームワーク「texttt{Intuition-MoR1E}」を設計した。
さらに、直観のスペクトルを管理するために設計された最先端のRランク1エキスパートの定式化を導入し、マルチタスクLLMファインタニングにおけるパラメータ効率と有効性を示す。
大規模な実験により、Intuition-MoR1Eは14の公開データセットに対して、他の最先端のベースラインに対して、優れた効率と2.15\%の全体的な精度向上を実現している。
関連論文リスト
- MaZO: Masked Zeroth-Order Optimization for Multi-Task Fine-Tuning of Large Language Models [26.980104922985326]
本稿では,ZO最適化下でのマルチタスクLLMファインチューニング用に設計された最初のフレームワークであるMaZOを紹介する。
MaZOは2つの重要な革新を通じてパラメータレベルでこれらの課題に取り組む: 臨界パラメータを識別する重みの重みの指標と、これらのパラメータを選択的に更新するマルチタスクの重みの更新マスクである。
実験により、MaZOは、一階最適化のために設計されたマルチタスク学習手法を超越して、最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-17T07:28:52Z) - Meta-Sparsity: Learning Optimal Sparse Structures in Multi-task Networks through Meta-learning [4.462334751640166]
Meta-sparsityは、ディープニューラルネットワーク(DNN)がマルチタスク学習環境で最適なスパース共有構造を生成することを可能にする、モデルのスパーシティを学習するためのフレームワークである。
Model Agnostic Meta-Learning (MAML)に触発され、マルチタスクシナリオにおける共有パラメータと最適なスパースパラメータの学習に重点を置いている。
メタスパーシティーの有効性は、2つのデータセットに対する広範な実験によって厳格に評価されている。
論文 参考訳(メタデータ) (2025-01-21T13:25:32Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts [6.245113492272563]
Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。
我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
論文 参考訳(メタデータ) (2024-08-02T18:05:10Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。