論文の概要: LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models
- arxiv url: http://arxiv.org/abs/2304.01933v2
- Date: Mon, 8 May 2023 03:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 20:47:42.245989
- Title: LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models
- Title(参考訳): LLM-Adapters:大規模言語モデルのパラメータ効率の良い微調整のためのアダプタファミリー
- Authors: Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-Wei
Lee, Lidong Bing, Xing Xu, Soujanya Poria
- Abstract要約: 本稿では,様々なアダプタを大規模言語モデル(LLM)に統合する,使い易いフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、OPT、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、LoRAといった広く使われているアダプタが含まれている。
LLMs-Adaptersにおけるアダプタの有効性を評価するため、6つの数学推論データセットを用いて実験を行った。
- 参考スコア(独自算出の注目度): 50.29148416769957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of large language models (LLMs), like GPT-3 and ChatGPT, has led
to the development of numerous cost-effective and accessible alternatives that
are created by fine-tuning open-access LLMs with task-specific data (e.g.,
ChatDoctor) or instruction data (e.g., Alpaca). Among the various fine-tuning
methods, adapter-based parameter-efficient fine-tuning (PEFT) is undoubtedly
one of the most attractive topics, as it only requires fine-tuning a few
external parameters instead of the entire LLMs while achieving comparable or
even better performance. To enable further research on PEFT methods of LLMs,
this paper presents LLM-Adapters, an easy-to-use framework that integrates
various adapters into LLMs and can execute these adapter-based PEFT methods of
LLMs for different tasks. The framework includes state-of-the-art open-access
LLMs such as LLaMA, BLOOM, OPT, and GPT-J, as well as widely used adapters such
as Series adapter, Parallel adapter, and LoRA. The framework is designed to be
research-friendly, efficient, modular, and extendable, allowing the integration
of new adapters and the evaluation of them with new and larger-scale LLMs.
Furthermore, to evaluate the effectiveness of adapters in LLMs-Adapters, we
conduct experiments on six math reasoning datasets. The results demonstrate
that using adapter-based PEFT in smaller-scale LLMs (7B) with few extra
trainable parameters yields comparable, and in some cases superior, performance
to that of powerful LLMs (175B) in zero-shot inference on simple math reasoning
datasets. Overall, we provide a promising framework for fine-tuning large LLMs
on downstream tasks. We believe the proposed LLMs-Adapters will advance
adapter-based PEFT research, facilitate the deployment of research pipelines,
and enable practical applications to real-world systems.
- Abstract(参考訳): GPT-3やChatGPTのような大規模言語モデル(LLM)の成功は、タスク固有のデータ(例えばChatDoctor)や命令データ(例えばAlpaca)を使って、細調整されたオープンアクセス LLM によって作成される多くのコスト効率の良い代替品の開発につながった。
様々な微調整手法の中で、アダプタベースのパラメータ効率細調整(PEFT)は間違いなく最も魅力的なトピックの1つである。
LLMのPEFT手法のさらなる研究を可能にするために,様々なアダプタをLCMに統合し,異なるタスクに対してこれらのアダプタベースのPEFT方式を実行できるLLM-Adaptersを提案する。
このフレームワークには、LLaMA、BLOOM、OPT、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、LoRAといった広く使われているアダプタが含まれている。
このフレームワークは研究に親しみやすく、効率的で、モジュール化され、拡張可能であり、新しいアダプタの統合と、より大規模なLCMによる評価を可能にする。
さらに,LLMs-Adaptersにおけるアダプタの有効性を評価するために,6つの数学推論データセットを用いて実験を行った。
以上の結果から,小型のLLM (7B) におけるアダプタベースPEFTの使用は,訓練可能なパラメータがほとんどなく,単純な算数推論データセット上でのゼロショット推論において,強力なLLM (175B) よりも優れた性能が得られることが示された。
全体として、下流タスクで大規模LLMを微調整するための有望なフレームワークを提供する。
提案するLLM-Adaptersは、アダプタベースのPEFT研究を進め、研究パイプラインの展開を促進し、現実のシステムに実用的な応用を可能にする。
関連論文リスト
- InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z) - Utilization of Pre-trained Language Model for Adapter-based Knowledge
Transfer in Software Engineering [0.3963827913892984]
本稿では,クローゼテスト,コードクローン検出,コード要約など,複数の下流タスクに対するアダプタを用いた知識伝達について検討する。
アダプタはコードコーパスでトレーニングされ、英語コーパスまたはコードコーパスで事前トレーニングされたPLMに挿入される。
アダプタを持たないPLMに対してNL-PLMを用いることで,NL-PLMからSEタスクに有用な知識を変換し,活用できることが示唆された。
論文 参考訳(メタデータ) (2023-07-17T14:58:52Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model [60.22693761583569]
パラメータ効率のよいビジュアルインストラクションモデルであるLLaMA-Adapter V2を提案する。
具体的には、より学習可能なパラメータをアンロックすることで、LLaMA-Adapterを初めて拡張する。
第3に、画像テキストペアと命令追従データの合同トレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2023-04-28T17:59:25Z) - Towards Parameter-Efficient Integration of Pre-Trained Language Models
In Temporal Video Grounding [37.199310579532884]
本稿では,TVG(Temporal Video Grounding)の課題について検討する。
TVGは、未トリミングビデオと自然言語による文クエリを前提として、ビデオ内のアクションインスタンスの時間的境界を認識し、決定することを目的としている。
最近の研究は、より高価なトレーニングを犠牲にして、大規模な事前学習言語モデル(PLM)によるクエリ入力を改善することで、この課題に対処している。
論文 参考訳(メタデータ) (2022-09-26T08:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。