論文の概要: A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm
- arxiv url: http://arxiv.org/abs/2402.01684v1
- Date: Mon, 22 Jan 2024 07:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:53:04.632342
- Title: A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm
- Title(参考訳): CGC-LORAアルゴリズムを用いたLLMにおける1+Nマルチタスクファインチューニングパターンの実装
- Authors: Chao Song and Zhihao Ye and Qiqiang Lin and Qiuying Peng and Jun Wang
- Abstract要約: 大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
- 参考スコア(独自算出の注目度): 7.521690071464451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the productive evolution of large language models (LLMs) in the field of
natural language processing (NLP), tons of effort has been made to effectively
fine-tune common pre-trained LLMs to fulfill a variety of tasks in one or
multiple specific domain. In practice, there are two prevailing ways, in which
the adaptation can be achieved: (i) Multiple Independent Models: Pre-trained
LLMs are fine-tuned a few times independently using the corresponding training
samples from each task. (ii) An Integrated Model: Samples from all tasks are
employed to fine-tune a pre-trianed LLM unitedly. To address the high computing
cost and seesawing issue simultaneously, we propose a unified framework that
implements a 1 + N mutli-task fine-tuning pattern in LLMs using a novel
Customized Gate Control (CGC) Low-rank Adaptation (LoRA) algorithm. Our work
aims to take an advantage of both MTL (i.e., CGC) and PEFT (i.e., LoRA) scheme.
For a given cluster of tasks, we design an innovative layer that contains two
types of experts as additional trainable parameters to make LoRA be compatible
with MTL. To comprehensively evaluate the proposed framework, we conduct
well-designed experiments on two public datasets. The experimental results
demonstrate that the unified framework with CGC-LoRA modules achieves higher
evaluation scores than all benchmarks on both two datasets.
- Abstract(参考訳): 自然言語処理(NLP)分野における大規模言語モデル(LLM)の生産的進化により、複数の特定の領域における様々なタスクを効果的に微調整する共通の事前学習 LLM の開発に多くの努力が注がれた。
実際には、適応が達成できる方法が2つある。
(i)複数独立モデル:各タスクから対応するトレーニングサンプルを用いて,事前学習したLCMを複数回微調整する。
(ii)統合モデル:全てのタスクからのサンプルを併用し、事前試行されたLLMを統一的に微調整する。
高い計算コストとシーソー問題に同時に対処するために,新しいカスタマイズゲート制御 (CGC) ローランク適応 (LoRA) アルゴリズムを用いて,LLMの1 + N mutli-taskファインチューニングパターンを実装した統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
与えられたタスクのクラスタに対して、2種類の専門家を含む革新的なレイヤを設計し、LoRAをMTLと互換性を持たせるためのトレーニング可能なパラメータを追加します。
提案フレームワークを包括的に評価するために,2つの公開データセットを適切に設計した実験を行う。
実験の結果, cgc-loraモジュールを用いた統一フレームワークは, 2つのデータセットのベンチマークよりも高い評価スコアが得られることがわかった。
関連論文リスト
- Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language
Models [7.966452497550907]
大規模言語モデル(LLM)を用いたマルチタスク学習のためのMixture-of-LoRA(MoA)アーキテクチャを提案する。
複数のドメイン固有のLoRAモジュールは、Mixture-of-Experts(MoE)で観察される専門家設計原則と一致させることができる。
各LoRAモデルは、新しいドメインに反復的に適応することができ、素早くドメイン固有の適応を可能にする。
論文 参考訳(メタデータ) (2024-03-06T03:33:48Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-01-01T08:32:50Z) - MOELoRA: An MOE-based Parameter Efficient Fine-Tuning Method for
Multi-task Medical Applications [60.218266928939606]
我々はMOELoRAと呼ばれるマルチタスク医療応用のためのパラメータ効率の良いファインチューニングフレームワークを提案する。
MOEとLoRAを統一するために、私たちは複数の専門家をトレーニング可能なパラメータとして考えました。
実験の結果, MOELoRAは既存のパラメータ効率の高い微調整法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-21T17:18:09Z) - BYOM: Building Your Own Multi-Task Model For Free [69.63765907216442]
BYOM-FFTは完全微調整モデルのマージ用であり、BYOM-LoRAはLoRA微調整モデルのマージ用である。
コンピュータビジョンと自然言語処理タスクの実験により、提案手法は既存のマージ手法よりも大きなマージ率で優れていることが示された。
論文 参考訳(メタデータ) (2023-10-03T08:39:33Z) - Making Small Language Models Better Multi-task Learners with
Mixture-of-Task-Adapters [13.6682552098234]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて、驚くべきゼロショット学習性能を達成した。
マルチタスク学習者に対して,小型言語モデルに基づくmixTure-of-task-adapterを効果的に構築するシステムであるALTERを提案する。
少ない計算コストでアダプタ間の協調を最適化する2段階の学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-20T03:39:56Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。