論文の概要: PEMA: Plug-in External Memory Adaptation for Language Models
- arxiv url: http://arxiv.org/abs/2311.08590v1
- Date: Tue, 14 Nov 2023 23:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:52:08.073458
- Title: PEMA: Plug-in External Memory Adaptation for Language Models
- Title(参考訳): PEMA: 言語モデルのためのプラグイン外部メモリ適応
- Authors: HyunJin Kim, Young Jin Kim, JinYeong Bak
- Abstract要約: プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクで顕著なパフォーマンスを示している。
メモリおよびトレーニング計算の観点から、大規模言語モデルの事前学習のリソース要件は、重大な課題である。
本稿では,PEMA(Plug-in external Memory Adaptation)を紹介する。
全重量を必要とせずに微調整 PLM を効率的に調整できるPEFT (Efficient Fine-Tuning) アプローチ
- 参考スコア(独自算出の注目度): 7.442935685802593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have demonstrated impressive performance
across various downstream NLP tasks. Nevertheless, the resource requirements of
pre-training large language models in terms of memory and training compute pose
significant challenges. Furthermore, due to the substantial resources required,
many PLM weights are confidential. Consequently, users are compelled to share
their data with model owners for fine-tuning on specific tasks. To overcome the
limitations, we introduce Plug-in External Memory Adaptation (PEMA), a
Parameter-Efficient Fine-Tuning (PEFT) approach designed for fine-tuning PLMs
without the need for all weights. PEMA can be integrated into the context
representation of test data during inference to execute downstream tasks. It
leverages an external memory to store context representations generated by a
PLM, mapped with the desired target word. Our method entails training
LoRA-based weight matrices within the final layer of the PLM for enhanced
efficiency. The probability is then interpolated with the next-word
distribution from the PLM to perform downstream tasks. To improve the
generation quality, we propose a novel interpolation strategy named Gradual
Unrolling. To demonstrate the effectiveness of our proposed method, we conduct
experiments to demonstrate the efficacy of PEMA with a syntactic dataset and
assess its performance on machine translation and style transfer tasks using
real datasets. PEMA outperforms other PEFT methods in terms of memory and
latency efficiency for training and inference. Furthermore, it outperforms
other baselines in preserving the meaning of sentences while generating
appropriate language and styles.
- Abstract(参考訳): プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクで顕著なパフォーマンスを示している。
それでも、メモリとトレーニング計算の観点で、大規模な言語モデルを事前トレーニングするリソース要件は、大きな課題となる。
さらに、大量の資源を必要とするため、多くのPLM重みは機密である。
その結果、ユーザーは特定のタスクを微調整するために、モデル所有者とデータを共有せざるを得なくなる。
この制限を克服するために,全ての重みを必要とせずに微調整PLM用に設計されたパラメータ効率の良い細調整 (PEFT) 手法であるプラグイン外部メモリ適応 (PEMA) を導入する。
PEMAは、ダウンストリームタスクを実行するために、推論中にテストデータのコンテキスト表現に統合できる。
外部メモリを利用して、所望のターゲットワードでマッピングされた PLM によって生成されたコンテキスト表現を格納する。
提案手法では,PLMの最終層内におけるLoRA系重量行列のトレーニングを行い,効率を向上する。
確率は、PLMの次の単語分布と補間され、下流のタスクを実行する。
世代品質を向上させるため,段階的展開という新しい補間戦略を提案する。
提案手法の有効性を実証するために,PEMAの構文的データセットによる有効性を示す実験を行い,実データを用いた機械翻訳およびスタイル伝達タスクの性能評価を行った。
PEMAは、トレーニングと推論のためのメモリと遅延効率の点で、他のPEFTメソッドよりも優れている。
さらに、適切な言語やスタイルを生成しながら文の意味を保ちながら、他のベースラインよりも優れている。
関連論文リスト
- Learning Semantic Proxies from Visual Prompts for Parameter-Efficient
Fine-Tuning in Deep Metric Learning [15.254782791542329]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [28.656227306028743]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z) - Towards Parameter-Efficient Integration of Pre-Trained Language Models
In Temporal Video Grounding [37.199310579532884]
本稿では,TVG(Temporal Video Grounding)の課題について検討する。
TVGは、未トリミングビデオと自然言語による文クエリを前提として、ビデオ内のアクションインスタンスの時間的境界を認識し、決定することを目的としている。
最近の研究は、より高価なトレーニングを犠牲にして、大規模な事前学習言語モデル(PLM)によるクエリ入力を改善することで、この課題に対処している。
論文 参考訳(メタデータ) (2022-09-26T08:11:19Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。