論文の概要: LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models
- arxiv url: http://arxiv.org/abs/2304.01933v3
- Date: Mon, 9 Oct 2023 15:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 13:44:59.377148
- Title: LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models
- Title(参考訳): LLM-Adapters:大規模言語モデルのパラメータ効率の良い微調整のためのアダプタファミリー
- Authors: Zhiqiang Hu, Lei Wang, Yihuai Lan, Wanyu Xu, Ee-Peng Lim, Lidong Bing,
Xing Xu, Soujanya Poria, Roy Ka-Wei Lee
- Abstract要約: 本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
- 参考スコア(独自算出の注目度): 75.25782573728677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of large language models (LLMs), like GPT-4 and ChatGPT, has led
to the development of numerous cost-effective and accessible alternatives that
are created by finetuning open-access LLMs with task-specific data (e.g.,
ChatDoctor) or instruction data (e.g., Alpaca). Among the various fine-tuning
methods, adapter-based parameter-efficient fine-tuning (PEFT) is undoubtedly
one of the most attractive topics, as it only requires fine-tuning a few
external parameters instead of the entire LLMs while achieving comparable or
even better performance. To enable further research on PEFT methods of LLMs,
this paper presents LLM-Adapters, an easy-to-use framework that integrates
various adapters into LLMs and can execute these adapter-based PEFT methods of
LLMs for different tasks. The framework includes state-of-the-art open-access
LLMs such as LLaMA, BLOOM, and GPT-J, as well as widely used adapters such as
Series adapters, Parallel adapter, Prompt-based learning and
Reparametrization-based methods. Moreover, we conduct extensive empirical
studies on the impact of adapter types, placement locations, and
hyper-parameters to the best design for each adapter-based methods. We evaluate
the effectiveness of the adapters on fourteen datasets from two different
reasoning tasks, Arithmetic Reasoning and Commonsense Reasoning. The results
demonstrate that using adapter-based PEFT in smaller-scale LLMs (7B) with few
extra trainable parameters yields comparable, and in some cases superior,
performance to powerful LLMs (175B) in zero-shot inference on both reasoning
tasks.
- Abstract(参考訳): GPT-4やChatGPTのような大規模言語モデル(LLM)の成功は、タスク固有のデータ(ChatDoctorなど)や命令データ(Alpacaなど)でオープンアクセス LLM を微調整することで、コスト効率が高くアクセスしやすい代替品の開発につながった。
様々な微調整手法の中で、アダプタベースのパラメータ効率細調整(PEFT)は間違いなく最も魅力的なトピックの1つである。
LLMのPEFT手法のさらなる研究を可能にするために,様々なアダプタをLCMに統合し,異なるタスクに対してこれらのアダプタベースのPEFT方式を実行できるLLM-Adaptersを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
さらに, アダプタ型, 配置位置, ハイパーパラメータの影響について, 各アダプタ方式の最適設計について, 広範囲にわたる実証的研究を行った。
算術推論と常識推論という2つの異なる推論タスクから,14個のデータセットに対するアダプタの有効性を評価した。
その結果,小型のLDM (7B) にアダプタベースのPEFTを用いることで,訓練可能なパラメータが少ない場合と,両方の推論タスクにおいてゼロショット推論において,強力なLDM (175B) よりも優れた性能が得られることがわかった。
関連論文リスト
- 3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability [6.451743797015637]
大規模言語モデル (LLM) に適応するために, 簡単な2次元回転を用いた新しい手法RoAdを導入する。
RoAdはパラメータ効率が非常に高く、8つの常識推論タスク、4つの算術推論タスクと0.1%のトレーニング可能なパラメータを提供する。
論文 参考訳(メタデータ) (2024-08-28T08:45:29Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models [14.202759186103497]
マルチモーダル大規模言語モデル (MLLM) はマルチモーダルタスクにおいて顕著な機能を示した。
しかし、MLLMの全てのパラメータを微調整することは、通常数十億のパラメータを含むため困難になっている。
本稿では,オープンソースMLLMのLPMコンポーネントを微調整するために,4つのPEFT手法を用いた実験的検討を行った。
論文 参考訳(メタデータ) (2024-06-07T17:58:11Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。
モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。
ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文 参考訳(メタデータ) (2024-05-18T03:02:23Z) - KnowLA: Enhancing Parameter-efficient Finetuning with Knowledgeable Adaptation [18.593612008576265]
そこで我々は,KnowLAという,知識に富んだ適応手法を提案する。
LLMに適応層を挿入し、入力テキストに現れるエンティティの埋め込みを統合する。
論文 参考訳(メタデータ) (2024-03-22T04:48:41Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。