論文の概要: LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models
- arxiv url: http://arxiv.org/abs/2304.01933v2
- Date: Mon, 8 May 2023 03:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 20:47:42.245989
- Title: LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models
- Title(参考訳): LLM-Adapters:大規模言語モデルのパラメータ効率の良い微調整のためのアダプタファミリー
- Authors: Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-Wei
Lee, Lidong Bing, Xing Xu, Soujanya Poria
- Abstract要約: 本稿では,様々なアダプタを大規模言語モデル(LLM)に統合する,使い易いフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、OPT、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、LoRAといった広く使われているアダプタが含まれている。
LLMs-Adaptersにおけるアダプタの有効性を評価するため、6つの数学推論データセットを用いて実験を行った。
- 参考スコア(独自算出の注目度): 50.29148416769957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of large language models (LLMs), like GPT-3 and ChatGPT, has led
to the development of numerous cost-effective and accessible alternatives that
are created by fine-tuning open-access LLMs with task-specific data (e.g.,
ChatDoctor) or instruction data (e.g., Alpaca). Among the various fine-tuning
methods, adapter-based parameter-efficient fine-tuning (PEFT) is undoubtedly
one of the most attractive topics, as it only requires fine-tuning a few
external parameters instead of the entire LLMs while achieving comparable or
even better performance. To enable further research on PEFT methods of LLMs,
this paper presents LLM-Adapters, an easy-to-use framework that integrates
various adapters into LLMs and can execute these adapter-based PEFT methods of
LLMs for different tasks. The framework includes state-of-the-art open-access
LLMs such as LLaMA, BLOOM, OPT, and GPT-J, as well as widely used adapters such
as Series adapter, Parallel adapter, and LoRA. The framework is designed to be
research-friendly, efficient, modular, and extendable, allowing the integration
of new adapters and the evaluation of them with new and larger-scale LLMs.
Furthermore, to evaluate the effectiveness of adapters in LLMs-Adapters, we
conduct experiments on six math reasoning datasets. The results demonstrate
that using adapter-based PEFT in smaller-scale LLMs (7B) with few extra
trainable parameters yields comparable, and in some cases superior, performance
to that of powerful LLMs (175B) in zero-shot inference on simple math reasoning
datasets. Overall, we provide a promising framework for fine-tuning large LLMs
on downstream tasks. We believe the proposed LLMs-Adapters will advance
adapter-based PEFT research, facilitate the deployment of research pipelines,
and enable practical applications to real-world systems.
- Abstract(参考訳): GPT-3やChatGPTのような大規模言語モデル(LLM)の成功は、タスク固有のデータ(例えばChatDoctor)や命令データ(例えばAlpaca)を使って、細調整されたオープンアクセス LLM によって作成される多くのコスト効率の良い代替品の開発につながった。
様々な微調整手法の中で、アダプタベースのパラメータ効率細調整(PEFT)は間違いなく最も魅力的なトピックの1つである。
LLMのPEFT手法のさらなる研究を可能にするために,様々なアダプタをLCMに統合し,異なるタスクに対してこれらのアダプタベースのPEFT方式を実行できるLLM-Adaptersを提案する。
このフレームワークには、LLaMA、BLOOM、OPT、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、LoRAといった広く使われているアダプタが含まれている。
このフレームワークは研究に親しみやすく、効率的で、モジュール化され、拡張可能であり、新しいアダプタの統合と、より大規模なLCMによる評価を可能にする。
さらに,LLMs-Adaptersにおけるアダプタの有効性を評価するために,6つの数学推論データセットを用いて実験を行った。
以上の結果から,小型のLLM (7B) におけるアダプタベースPEFTの使用は,訓練可能なパラメータがほとんどなく,単純な算数推論データセット上でのゼロショット推論において,強力なLLM (175B) よりも優れた性能が得られることが示された。
全体として、下流タスクで大規模LLMを微調整するための有望なフレームワークを提供する。
提案するLLM-Adaptersは、アダプタベースのPEFT研究を進め、研究パイプラインの展開を促進し、現実のシステムに実用的な応用を可能にする。
関連論文リスト
- 3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability [6.451743797015637]
大規模言語モデル (LLM) に適応するために, 簡単な2次元回転を用いた新しい手法RoAdを導入する。
RoAdはパラメータ効率が非常に高く、8つの常識推論タスク、4つの算術推論タスクと0.1%のトレーニング可能なパラメータを提供する。
論文 参考訳(メタデータ) (2024-08-28T08:45:29Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models [14.202759186103497]
マルチモーダル大規模言語モデル (MLLM) はマルチモーダルタスクにおいて顕著な機能を示した。
しかし、MLLMの全てのパラメータを微調整することは、通常数十億のパラメータを含むため困難になっている。
本稿では,オープンソースMLLMのLPMコンポーネントを微調整するために,4つのPEFT手法を用いた実験的検討を行った。
論文 参考訳(メタデータ) (2024-06-07T17:58:11Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。
モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。
ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文 参考訳(メタデータ) (2024-05-18T03:02:23Z) - KnowLA: Enhancing Parameter-efficient Finetuning with Knowledgeable Adaptation [18.593612008576265]
そこで我々は,KnowLAという,知識に富んだ適応手法を提案する。
LLMに適応層を挿入し、入力テキストに現れるエンティティの埋め込みを統合する。
論文 参考訳(メタデータ) (2024-03-22T04:48:41Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。