論文の概要: Massive Editing for Large Language Models via Meta Learning
- arxiv url: http://arxiv.org/abs/2311.04661v1
- Date: Wed, 8 Nov 2023 13:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:48:24.386444
- Title: Massive Editing for Large Language Models via Meta Learning
- Title(参考訳): メタ学習による大規模言語モデルの大量編集
- Authors: Chenmien Tan and Ge Zhang and Jie Fu
- Abstract要約: 大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にするが、取得した知識は時間とともに根本的に誤りまたは時代遅れになる可能性がある。
パラメータシフト集約を最小二乗問題として定式化するMALMEN(Massive Language Model Editing Network)を提案する。
提案手法は, BERTベース, GPT-2, T5-XL (2.8B), GPT-J (6B) などの異なるアーキテクチャを持つLM上で, 数千件の事実を編集して評価する。
- 参考スコア(独自算出の注目度): 27.972194696587813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have enabled learning knowledge from the
pre-training corpora, the acquired knowledge may be fundamentally incorrect or
outdated over time, which necessitates rectifying the knowledge of the language
model (LM) after the training. A promising approach involves employing a
hyper-network to generate parameter shift, whereas existing hyper-networks
suffer from inferior scalability in synchronous editing operation amount. To
mitigate the problem, we propose the MAssive Language Model Editing Network
(MALMEN), which formulates the parameter shift aggregation as the least square
problem, subsequently updating the LM parameters using the normal equation. To
accommodate editing multiple facts simultaneously with limited memory budgets,
we separate the computation on the hyper-network and LM, enabling arbitrary
batch size on both neural networks. Our method is evaluated by editing up to
thousands of facts on LMs with different architectures, i.e., BERT-base, GPT-2,
T5-XL (2.8B), and GPT-J (6B), across various knowledge-intensive NLP tasks,
i.e., closed book fact-checking and question answering. Remarkably, MALMEN is
capable of editing hundreds of times more facts than strong baselines with the
identical hyper-network architecture and outperforms editor specifically
designed for GPT. Our code is available at
https://github.com/ChenmienTan/malmen.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にする一方で、習得した知識は時間とともに根本的に誤りまたは時代遅れになり、訓練後に言語モデル(LM)の知識を修正する必要がある。
有望なアプローチはパラメータシフトを生成するためにハイパーネットワークを使用するのに対して、既存のハイパーネットワークは同期編集操作量においてスケーラビリティが劣る。
この問題を軽減するために,パラメータシフト集約を最小二乗問題として定式化し,次に正規方程式を用いてLMパラメータを更新するMassive Language Model Editing Network (MALMEN)を提案する。
限られたメモリ予算で複数の事実を同時に編集できるように、ハイパーネットワークとlmの計算を分離し、両方のニューラルネットワークの任意のバッチサイズを可能にした。
本手法は,異なるアーキテクチャ,すなわちBERTベース,GPT-2,T5-XL (2.8B),GPT-J (6B) を用いて,様々な知識集約型NLPタスク,すなわちクローズドブックのファクトチェックと質問応答を用いて,最大数千の事実をLM上で編集することによって評価する。
驚くべきことに、malmenは、gpt用に特別に設計された同一のハイパーネットワークアーキテクチャとより強力なベースラインよりも数百倍の事実を編集できる。
私たちのコードはhttps://github.com/ChenmienTan/malmen.comから入手可能です。
関連論文リスト
- Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [86.91360597169563]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
本稿では,新しい文書から情報を圧縮・抽出するメモリ拡張手法を提案する。
実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
最近のモデル編集は、大規模言語モデル(LLM)の少量の知識を効率的に更新するための有望な手法である
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
我々は、textscCounterFactおよびzsREデータセット上でSWEA$oplus$OSのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained
Language Models for Question Answering over Knowledge Graph [142.42275983201978]
本稿では,構造化推論を行うためのGNNを模倣するサブグラフ認識型自己認識機構を提案する。
また、モデルパラメータを2万のサブグラフで合成した質問に適応するための適応チューニング戦略も採用する。
実験により、ReasoningLMは、更新されたパラメータが少なく、トレーニングデータが少ない場合でも、最先端のモデルを大きなマージンで上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-30T07:18:54Z) - G-SPEED: General SParse Efficient Editing MoDel [25.48360227520061]
underlinetextbfGeneral underlinetextbfSParse underlinetextbfEfficient underlinetextbfEditing MounderlinetextbfDel(textbfG-SPEED)
論文 参考訳(メタデータ) (2023-10-16T15:01:18Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。