論文の概要: PEMA: Plug-in External Memory Adaptation for Language Models
- arxiv url: http://arxiv.org/abs/2311.08590v1
- Date: Tue, 14 Nov 2023 23:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:52:08.073458
- Title: PEMA: Plug-in External Memory Adaptation for Language Models
- Title(参考訳): PEMA: 言語モデルのためのプラグイン外部メモリ適応
- Authors: HyunJin Kim, Young Jin Kim, JinYeong Bak
- Abstract要約: プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクで顕著なパフォーマンスを示している。
メモリおよびトレーニング計算の観点から、大規模言語モデルの事前学習のリソース要件は、重大な課題である。
本稿では,PEMA(Plug-in external Memory Adaptation)を紹介する。
全重量を必要とせずに微調整 PLM を効率的に調整できるPEFT (Efficient Fine-Tuning) アプローチ
- 参考スコア(独自算出の注目度): 7.442935685802593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have demonstrated impressive performance
across various downstream NLP tasks. Nevertheless, the resource requirements of
pre-training large language models in terms of memory and training compute pose
significant challenges. Furthermore, due to the substantial resources required,
many PLM weights are confidential. Consequently, users are compelled to share
their data with model owners for fine-tuning on specific tasks. To overcome the
limitations, we introduce Plug-in External Memory Adaptation (PEMA), a
Parameter-Efficient Fine-Tuning (PEFT) approach designed for fine-tuning PLMs
without the need for all weights. PEMA can be integrated into the context
representation of test data during inference to execute downstream tasks. It
leverages an external memory to store context representations generated by a
PLM, mapped with the desired target word. Our method entails training
LoRA-based weight matrices within the final layer of the PLM for enhanced
efficiency. The probability is then interpolated with the next-word
distribution from the PLM to perform downstream tasks. To improve the
generation quality, we propose a novel interpolation strategy named Gradual
Unrolling. To demonstrate the effectiveness of our proposed method, we conduct
experiments to demonstrate the efficacy of PEMA with a syntactic dataset and
assess its performance on machine translation and style transfer tasks using
real datasets. PEMA outperforms other PEFT methods in terms of memory and
latency efficiency for training and inference. Furthermore, it outperforms
other baselines in preserving the meaning of sentences while generating
appropriate language and styles.
- Abstract(参考訳): プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクで顕著なパフォーマンスを示している。
それでも、メモリとトレーニング計算の観点で、大規模な言語モデルを事前トレーニングするリソース要件は、大きな課題となる。
さらに、大量の資源を必要とするため、多くのPLM重みは機密である。
その結果、ユーザーは特定のタスクを微調整するために、モデル所有者とデータを共有せざるを得なくなる。
この制限を克服するために,全ての重みを必要とせずに微調整PLM用に設計されたパラメータ効率の良い細調整 (PEFT) 手法であるプラグイン外部メモリ適応 (PEMA) を導入する。
PEMAは、ダウンストリームタスクを実行するために、推論中にテストデータのコンテキスト表現に統合できる。
外部メモリを利用して、所望のターゲットワードでマッピングされた PLM によって生成されたコンテキスト表現を格納する。
提案手法では,PLMの最終層内におけるLoRA系重量行列のトレーニングを行い,効率を向上する。
確率は、PLMの次の単語分布と補間され、下流のタスクを実行する。
世代品質を向上させるため,段階的展開という新しい補間戦略を提案する。
提案手法の有効性を実証するために,PEMAの構文的データセットによる有効性を示す実験を行い,実データを用いた機械翻訳およびスタイル伝達タスクの性能評価を行った。
PEMAは、トレーニングと推論のためのメモリと遅延効率の点で、他のPEFTメソッドよりも優れている。
さらに、適切な言語やスタイルを生成しながら文の意味を保ちながら、他のベースラインよりも優れている。
関連論文リスト
- Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models [24.62337386603331]
大規模マルチモーダルモデル(LMM)は、機械が世界と対話する方法に革命をもたらしている。
下流タスクにLMMを適用するために,パラメータ効率細調整(PEFT)が普及している。
本稿では,各チューニング戦略の長所と短所に着目し,これらのアプローチに典型的な効率性から焦点を移す。
論文 参考訳(メタデータ) (2024-10-29T07:55:50Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z) - Towards Parameter-Efficient Integration of Pre-Trained Language Models
In Temporal Video Grounding [37.199310579532884]
本稿では,TVG(Temporal Video Grounding)の課題について検討する。
TVGは、未トリミングビデオと自然言語による文クエリを前提として、ビデオ内のアクションインスタンスの時間的境界を認識し、決定することを目的としている。
最近の研究は、より高価なトレーニングを犠牲にして、大規模な事前学習言語モデル(PLM)によるクエリ入力を改善することで、この課題に対処している。
論文 参考訳(メタデータ) (2022-09-26T08:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。