論文の概要: Interweaving Memories of a Siamese Large Language Model
- arxiv url: http://arxiv.org/abs/2412.17383v1
- Date: Mon, 23 Dec 2024 08:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:40.305317
- Title: Interweaving Memories of a Siamese Large Language Model
- Title(参考訳): シームズ大言語モデルの織り込み記憶
- Authors: Xin Song, Zhikai Xue, Guoxiu He, Jiawei Liu, Wei Lu,
- Abstract要約: 本稿では,シームズ大言語モデルの記憶を織り込むモデル非依存のPEFTフレームワークを提案する。
IMSMは背骨PEFT法と同等の時間と空間効率を維持している。
- 参考スコア(独自算出の注目度): 9.60026229476874
- License:
- Abstract: Parameter-efficient fine-tuning (PEFT) methods optimize large language models (LLMs) by modifying or introducing a small number of parameters to enhance alignment with downstream tasks. However, they can result in catastrophic forgetting, where LLMs prioritize new knowledge at the expense of comprehensive world knowledge. A promising approach to mitigate this issue is to recall prior memories based on the original knowledge. To this end, we propose a model-agnostic PEFT framework, IMSM, which Interweaves Memories of a Siamese Large Language Model. Specifically, our siamese LLM is equipped with an existing PEFT method. Given an incoming query, it generates two distinct memories based on the pre-trained and fine-tuned parameters. IMSM then incorporates an interweaving mechanism that regulates the contributions of both original and enhanced memories when generating the next token. This framework is theoretically applicable to all open-source LLMs and existing PEFT methods. We conduct extensive experiments across various benchmark datasets, evaluating the performance of popular open-source LLMs using the proposed IMSM, in comparison to both classical and leading PEFT methods. Our findings indicate that IMSM maintains comparable time and space efficiency to backbone PEFT methods while significantly improving performance and effectively mitigating catastrophic forgetting.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)手法は、下流タスクとの整合性を高めるために少数のパラメータを修正または導入することにより、大きな言語モデル(LLM)を最適化する。
しかし、これらは、LLMが包括的世界知識を犠牲にして新しい知識を優先する破滅的な忘れを招きかねない。
この問題を緩和するための有望なアプローチは、元の知識に基づいて以前の記憶を思い出すことである。
そこで本研究では,シームズ大言語モデルの記憶を相互に織り込むモデル非依存型PEFTフレームワーク IMSM を提案する。
具体的には,本手法は既存のPEFT方式を採用している。
入力クエリが与えられたら、事前訓練されたパラメータと微調整されたパラメータに基づいて、2つの異なるメモリを生成する。
IMSMは次にトークンを生成する際に、元のメモリと強化されたメモリの両方のコントリビューションを制御するインターウィービング機構を組み込む。
このフレームワークは理論上、すべてのオープンソースLLMと既存のPEFTメソッドに適用できる。
提案したIMSMを用いて,様々なベンチマークデータセットにまたがって広範な実験を行い,従来のPEFT法と比較した。
以上の結果から,IMSMは背骨PEFT法と同等の時間と空間効率を保ちながら,性能を著しく向上し,破滅的忘れを効果的に軽減していることが明らかとなった。
関連論文リスト
- Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models [14.202759186103497]
マルチモーダル大規模言語モデル (MLLM) はマルチモーダルタスクにおいて顕著な機能を示した。
しかし、MLLMの全てのパラメータを微調整することは、通常数十億のパラメータを含むため困難になっている。
本稿では,オープンソースMLLMのLPMコンポーネントを微調整するために,4つのPEFT手法を用いた実験的検討を行った。
論文 参考訳(メタデータ) (2024-06-07T17:58:11Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z) - Make Pre-trained Model Reversible: From Parameter to Memory Efficient
Fine-Tuning [6.451743797015637]
本稿では,事前学習した言語モデルに対するメモリ効率のよい微調整(MEFT)を提案する。
MEFTはアダプタをPLMに挿入し、PLMの開始点を保ち、追加の事前訓練なしで可逆的にすることができる。
MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。
論文 参考訳(メタデータ) (2023-06-01T09:26:17Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。