Fugu-MT 論文翻訳(概要): LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models

論文の概要: LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models

arxiv url: http://arxiv.org/abs/2304.01933v3
Date: Mon, 9 Oct 2023 15:38:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 13:44:59.377148
Title: LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models
Title（参考訳）: LLM-Adapters:大規模言語モデルのパラメータ効率の良い微調整のためのアダプタファミリー
Authors: Zhiqiang Hu, Lei Wang, Yihuai Lan, Wanyu Xu, Ee-Peng Lim, Lidong Bing, Xing Xu, Soujanya Poria, Roy Ka-Wei Lee
Abstract要約: 本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
参考スコア（独自算出の注目度）: 75.25782573728677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The success of large language models (LLMs), like GPT-4 and ChatGPT, has led to the development of numerous cost-effective and accessible alternatives that are created by finetuning open-access LLMs with task-specific data (e.g., ChatDoctor) or instruction data (e.g., Alpaca). Among the various fine-tuning methods, adapter-based parameter-efficient fine-tuning (PEFT) is undoubtedly one of the most attractive topics, as it only requires fine-tuning a few external parameters instead of the entire LLMs while achieving comparable or even better performance. To enable further research on PEFT methods of LLMs, this paper presents LLM-Adapters, an easy-to-use framework that integrates various adapters into LLMs and can execute these adapter-based PEFT methods of LLMs for different tasks. The framework includes state-of-the-art open-access LLMs such as LLaMA, BLOOM, and GPT-J, as well as widely used adapters such as Series adapters, Parallel adapter, Prompt-based learning and Reparametrization-based methods. Moreover, we conduct extensive empirical studies on the impact of adapter types, placement locations, and hyper-parameters to the best design for each adapter-based methods. We evaluate the effectiveness of the adapters on fourteen datasets from two different reasoning tasks, Arithmetic Reasoning and Commonsense Reasoning. The results demonstrate that using adapter-based PEFT in smaller-scale LLMs (7B) with few extra trainable parameters yields comparable, and in some cases superior, performance to powerful LLMs (175B) in zero-shot inference on both reasoning tasks.
Abstract（参考訳）: GPT-4やChatGPTのような大規模言語モデル(LLM)の成功は、タスク固有のデータ(ChatDoctorなど)や命令データ(Alpacaなど)でオープンアクセス LLM を微調整することで、コスト効率が高くアクセスしやすい代替品の開発につながった。様々な微調整手法の中で、アダプタベースのパラメータ効率細調整(PEFT)は間違いなく最も魅力的なトピックの1つである。 LLMのPEFT手法のさらなる研究を可能にするために,様々なアダプタをLCMに統合し,異なるタスクに対してこれらのアダプタベースのPEFT方式を実行できるLLM-Adaptersを提案する。このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。さらに, アダプタ型, 配置位置, ハイパーパラメータの影響について, 各アダプタ方式の最適設計について, 広範囲にわたる実証的研究を行った。算術推論と常識推論という2つの異なる推論タスクから,14個のデータセットに対するアダプタの有効性を評価した。その結果,小型のLDM (7B) にアダプタベースのPEFTを用いることで,訓練可能なパラメータが少ない場合と,両方の推論タスクにおいてゼロショット推論において,強力なLDM (175B) よりも優れた性能が得られることがわかった。

関連論文リスト

Rank Also Matters: Hierarchical Configuration for Mixture of Adapter Experts in LLM Fine-Tuning [5.074620301447097]
本稿では,大規模言語モデル(LLM)のための専門家のアロケーションとランク設定のための階層型スキームHILOを提案する。 HILOは、層間のアダプタエキスパートの数とランクを動的に調整し、アダプタの粒度の異なるモデルレイヤの表現複雑性に適合する。複数のベンチマークタスクの実験では、HILOが既存のメソッドよりも精度が高く、トレーニング可能なパラメータが少ないことが示されている。
論文参考訳（メタデータ） (2025-02-06T08:58:03Z)
3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability [6.451743797015637]
大規模言語モデル (LLM) に適応するために, 簡単な2次元回転を用いた新しい手法RoAdを導入する。 RoAdはパラメータ効率が非常に高く、8つの常識推論タスク、4つの算術推論タスクと0.1%のトレーニング可能なパラメータを提供する。
論文参考訳（メタデータ） (2024-08-28T08:45:29Z)
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。 WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。 Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文参考訳（メタデータ） (2024-08-06T10:46:46Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models [14.202759186103497]
マルチモーダル大規模言語モデル (MLLM) はマルチモーダルタスクにおいて顕著な機能を示した。しかし、MLLMの全てのパラメータを微調整することは、通常数十億のパラメータを含むため困難になっている。本稿では,オープンソースMLLMのLPMコンポーネントを微調整するために,4つのPEFT手法を用いた実験的検討を行った。
論文参考訳（メタデータ） (2024-06-07T17:58:11Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文参考訳（メタデータ） (2024-05-18T03:02:23Z)
KnowLA: Enhancing Parameter-efficient Finetuning with Knowledgeable Adaptation [18.593612008576265]
そこで我々は,KnowLAという,知識に富んだ適応手法を提案する。 LLMに適応層を挿入し、入力テキストに現れるエンティティの埋め込みを統合する。
論文参考訳（メタデータ） (2024-03-22T04:48:41Z)
Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。本稿では,本論文の総合的研究について述べる。自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文参考訳（メタデータ） (2023-08-21T04:31:06Z)
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。 MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文参考訳（メタデータ） (2023-05-24T11:06:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。