Fugu-MT 論文翻訳(概要): Interweaving Memories of a Siamese Large Language Model

論文の概要: Interweaving Memories of a Siamese Large Language Model

arxiv url: http://arxiv.org/abs/2412.17383v1
Date: Mon, 23 Dec 2024 08:33:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.381907
Title: Interweaving Memories of a Siamese Large Language Model
Title（参考訳）: シームズ大言語モデルの織り込み記憶
Authors: Xin Song, Zhikai Xue, Guoxiu He, Jiawei Liu, Wei Lu,
Abstract要約: 本稿では,シームズ大言語モデルの記憶を織り込むモデル非依存のPEFTフレームワークを提案する。 IMSMは背骨PEFT法と同等の時間と空間効率を維持している。
参考スコア（独自算出の注目度）: 9.60026229476874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Parameter-efficient fine-tuning (PEFT) methods optimize large language models (LLMs) by modifying or introducing a small number of parameters to enhance alignment with downstream tasks. However, they can result in catastrophic forgetting, where LLMs prioritize new knowledge at the expense of comprehensive world knowledge. A promising approach to mitigate this issue is to recall prior memories based on the original knowledge. To this end, we propose a model-agnostic PEFT framework, IMSM, which Interweaves Memories of a Siamese Large Language Model. Specifically, our siamese LLM is equipped with an existing PEFT method. Given an incoming query, it generates two distinct memories based on the pre-trained and fine-tuned parameters. IMSM then incorporates an interweaving mechanism that regulates the contributions of both original and enhanced memories when generating the next token. This framework is theoretically applicable to all open-source LLMs and existing PEFT methods. We conduct extensive experiments across various benchmark datasets, evaluating the performance of popular open-source LLMs using the proposed IMSM, in comparison to both classical and leading PEFT methods. Our findings indicate that IMSM maintains comparable time and space efficiency to backbone PEFT methods while significantly improving performance and effectively mitigating catastrophic forgetting.
Abstract（参考訳）: パラメータ効率のよい微調整(PEFT)手法は、下流タスクとの整合性を高めるために少数のパラメータを修正または導入することにより、大きな言語モデル(LLM)を最適化する。しかし、これらは、LLMが包括的世界知識を犠牲にして新しい知識を優先する破滅的な忘れを招きかねない。この問題を緩和するための有望なアプローチは、元の知識に基づいて以前の記憶を思い出すことである。そこで本研究では,シームズ大言語モデルの記憶を相互に織り込むモデル非依存型PEFTフレームワーク IMSM を提案する。具体的には,本手法は既存のPEFT方式を採用している。入力クエリが与えられたら、事前訓練されたパラメータと微調整されたパラメータに基づいて、2つの異なるメモリを生成する。 IMSMは次にトークンを生成する際に、元のメモリと強化されたメモリの両方のコントリビューションを制御するインターウィービング機構を組み込む。このフレームワークは理論上、すべてのオープンソースLLMと既存のPEFTメソッドに適用できる。提案したIMSMを用いて,様々なベンチマークデータセットにまたがって広範な実験を行い,従来のPEFT法と比較した。以上の結果から,IMSMは背骨PEFT法と同等の時間と空間効率を保ちながら,性能を著しく向上し,破滅的忘れを効果的に軽減していることが明らかとなった。

関連論文リスト

LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。 ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文参考訳（メタデータ） (2024-10-15T16:53:26Z)
LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。 LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文参考訳（メタデータ） (2024-09-30T03:59:06Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models [14.202759186103497]
マルチモーダル大規模言語モデル (MLLM) はマルチモーダルタスクにおいて顕著な機能を示した。しかし、MLLMの全てのパラメータを微調整することは、通常数十億のパラメータを含むため困難になっている。本稿では,オープンソースMLLMのLPMコンポーネントを微調整するために,4つのPEFT手法を用いた実験的検討を行った。
論文参考訳（メタデータ） (2024-06-07T17:58:11Z)
Personalized LLM Response Generation with Parameterized Memory Injection [17.48756504658829]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。パーソナライズされたLSM応答生成は、医療などの重要な分野の個人に多大な利益をもたらす可能性がある。
論文参考訳（メタデータ） (2024-04-04T16:20:34Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
LLM-based Medical Assistant Personalization with Short- and Long-Term Memory Coordination [20.269899169364397]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。本稿では,パラメータ効率のよい微細チューニング(PEFT)スキーマを備え,医療アシスタントをパーソナライズするための新しい計算バイオニックメモリ機構を提案する。
論文参考訳（メタデータ） (2023-09-21T00:34:33Z)
Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。本稿では,本論文の総合的研究について述べる。自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文参考訳（メタデータ） (2023-08-21T04:31:06Z)
Make Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning [6.451743797015637]
本稿では,事前学習した言語モデルに対するメモリ効率のよい微調整(MEFT)を提案する。 MEFTはアダプタをPLMに挿入し、PLMの開始点を保ち、追加の事前訓練なしで可逆的にすることができる。 MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。
論文参考訳（メタデータ） (2023-06-01T09:26:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。