Fugu-MT 論文翻訳(概要): Massive Editing for Large Language Models via Meta Learning

論文の概要: Massive Editing for Large Language Models via Meta Learning

arxiv url: http://arxiv.org/abs/2311.04661v3
Date: Thu, 25 Jan 2024 03:50:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 17:36:19.052006
Title: Massive Editing for Large Language Models via Meta Learning
Title（参考訳）: メタ学習による大規模言語モデルの大量編集
Authors: Chenmien Tan and Ge Zhang and Jie Fu
Abstract要約: 大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にするが、取得した知識は時間とともに根本的に誤りまたは時代遅れになる可能性がある。パラメータシフト集約を最小二乗問題として定式化するMALMEN(Massive Language Model Editing Network)を提案する。提案手法は, BERTベース, GPT-2, T5-XL (2.8B), GPT-J (6B) などの異なるアーキテクチャを持つLM上で, 数千件の事実を編集して評価する。
参考スコア（独自算出の注目度）: 27.972194696587813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) have enabled learning knowledge from the pre-training corpora, the acquired knowledge may be fundamentally incorrect or outdated over time, which necessitates rectifying the knowledge of the language model (LM) after the training. A promising approach involves employing a hyper-network to generate parameter shift, whereas existing hyper-networks suffer from inferior scalability in synchronous editing operation amount. To mitigate the problem, we propose the MAssive Language Model Editing Network (MALMEN), which formulates the parameter shift aggregation as the least square problem, subsequently updating the LM parameters using the normal equation. To accommodate editing multiple facts simultaneously with limited memory budgets, we separate the computation on the hyper-network and LM, enabling arbitrary batch size on both neural networks. Our method is evaluated by editing up to thousands of facts on LMs with different architectures, i.e., BERT-base, GPT-2, T5-XL (2.8B), and GPT-J (6B), across various knowledge-intensive NLP tasks, i.e., closed book fact-checking and question answering. Remarkably, MALMEN is capable of editing hundreds of times more facts than strong baselines with the identical hyper-network architecture and outperforms editor specifically designed for GPT. Our code is available at https://github.com/ChenmienTan/malmen.
Abstract（参考訳）: 大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にする一方で、習得した知識は時間とともに根本的に誤りまたは時代遅れになり、訓練後に言語モデル(LM)の知識を修正する必要がある。有望なアプローチはパラメータシフトを生成するためにハイパーネットワークを使用するのに対して、既存のハイパーネットワークは同期編集操作量においてスケーラビリティが劣る。この問題を軽減するために,パラメータシフト集約を最小二乗問題として定式化し,次に正規方程式を用いてLMパラメータを更新するMassive Language Model Editing Network (MALMEN)を提案する。限られたメモリ予算で複数の事実を同時に編集できるように、ハイパーネットワークとlmの計算を分離し、両方のニューラルネットワークの任意のバッチサイズを可能にした。本手法は,異なるアーキテクチャ,すなわちBERTベース,GPT-2,T5-XL (2.8B),GPT-J (6B) を用いて,様々な知識集約型NLPタスク,すなわちクローズドブックのファクトチェックと質問応答を用いて,最大数千の事実をLM上で編集することによって評価する。驚くべきことに、malmenは、gpt用に特別に設計された同一のハイパーネットワークアーキテクチャとより強力なベースラインよりも数百倍の事実を編集できる。私たちのコードはhttps://github.com/ChenmienTan/malmen.comから入手可能です。

関連論文リスト

Latent Knowledge Scalpel: Precise and Massive Knowledge Editing for Large Language Models [3.834827405473377]
大規模言語モデル(LLM)は、しばしば事前学習から不正確な情報や時代遅れの情報を保持し、推論中に誤った予測や偏りのある出力をもたらす。我々はLLMエディタであるLatent Knowledge Scalpel(LKS)を紹介し、軽量なハイパーネットワークを用いて特定のエンティティの潜在知識を操作し、正確かつ大規模な編集を可能にする。 Llama-2とMistralで行った実験では、同時編集数が10,000に達したとしても、LKSは編集されたLLMの一般的な能力を保ちながら知識編集を効果的に行う。
論文参考訳（メタデータ） (2025-08-01T03:51:43Z)
PropMEND: Hypernetworks for Knowledge Propagation in LLMs [82.99849359892112]
本稿では,PropMENDという,ハイパーネットワークに基づく知識伝播手法を提案する。インジェクションされた事実に回答が明記されていないマルチホップ質問に対して,ほぼ2倍の精度で回答を提示する。我々はまた、ハイパーネットワークの一般化を評価するために、新しいデータセットである Controlled RippleEdit も導入した。
論文参考訳（メタデータ） (2025-06-10T15:44:19Z)
MindBridge: Scalable and Cross-Model Knowledge Editing via Memory-Augmented Modality [55.01380617388064]
既存のほとんどのメソッドは特定のモデルに過度に適合し、更新毎に編集済みの知識を破棄する。マルチモーダルモデルにおけるモダリティ処理とLLMの低結合に着想を得た,スケーラブルなソリューションであるMindBridgeを紹介する。 MindBridgeは数万の知識エントリを編集しても優れたパフォーマンスを実現し、異なるLLMに柔軟に対応できる。
論文参考訳（メタデータ） (2025-03-04T15:17:57Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Enhance Lifelong Model Editing with Continuous Data-Adapter Association [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。現在のアプローチでは、元のパラメータを凍結し、知識修正毎に新しいアダプタを割り当てることで、シーケンシャルな編集を管理している。 ELDER, textbfEnhancing textbfLifelong motextbfDel textbfEditing with mixtutextbfRe of Low-Rank Adapter (LoRA)を提案する。
論文参考訳（メタデータ） (2024-08-19T02:27:00Z)
DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models [32.598670876662375]
動的補助核融合ネットワーク(DAFNet)は、シーケンス全体の事実知識間の意味的相互作用を強化するように設計されている。 DAFNetはシングルターンとシーケンシャルな編集において、強いベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-05-31T02:56:49Z)
Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文参考訳（メタデータ） (2024-03-26T06:57:23Z)
Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。 MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-07T08:34:57Z)
SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
最近のモデル編集は、大規模言語モデル(LLM)の少量の知識を効率的に更新するための有望な手法である本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。我々は、textscCounterFactおよびzsREデータセット上でSWEA$oplus$OSのSOTA(State-of-the-art)パフォーマンスを実証する。
論文参考訳（メタデータ） (2024-01-31T13:08:45Z)
ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained Language Models for Question Answering over Knowledge Graph [142.42275983201978]
本稿では,構造化推論を行うためのGNNを模倣するサブグラフ認識型自己認識機構を提案する。また、モデルパラメータを2万のサブグラフで合成した質問に適応するための適応チューニング戦略も採用する。実験により、ReasoningLMは、更新されたパラメータが少なく、トレーニングデータが少ない場合でも、最先端のモデルを大きなマージンで上回っていることが示された。
論文参考訳（メタデータ） (2023-12-30T07:18:54Z)
G-SPEED: General SParse Efficient Editing MoDel [25.48360227520061]
underlinetextbfGeneral underlinetextbfSParse underlinetextbfEfficient underlinetextbfEditing MounderlinetextbfDel(textbfG-SPEED)
論文参考訳（メタデータ） (2023-10-16T15:01:18Z)
Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。 knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。 2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文参考訳（メタデータ） (2021-04-16T15:24:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。