論文の概要: Efficient Knowledge Editing via Minimal Precomputation
- arxiv url: http://arxiv.org/abs/2506.04226v1
- Date: Wed, 04 Jun 2025 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.521513
- Title: Efficient Knowledge Editing via Minimal Precomputation
- Title(参考訳): 最小事前計算による効率的な知識編集
- Authors: Akshat Gupta, Maochuan Lu, Thomas Hartvigsen, Gopala Anumanchipalli,
- Abstract要約: 本稿では, MEMITを用いた知識編集は, 当初規定されていた隠れベクトル数の0.3%以下で行うことができることを示す。
これにより、かなりの事前計算時間を節約でき、ユーザーは数分で新しいモデルを編集できる。
- 参考スコア(独自算出の注目度): 12.666016344022605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge editing methods like MEMIT are able to make data and compute efficient updates of factual knowledge by using a single sentence to update facts and their consequences. However, what is often overlooked is a "precomputation step", which requires a one-time but significant computational cost. The authors of MEMIT originally precompute approximately 44 million hidden vectors per edited layer, which requires a forward pass over 44 million tokens. For GPT-J (6B), this precomputation step takes 36 hours on a single GPU, while it takes approximately 40 hours for Llama2-7B. Additionally, this precomputation time grows with model size. In this paper, we show that this excessive computational cost is unnecessary. Knowledge editing using MEMIT and related methods, such as ROME and EMMET, can be performed by pre-computing a very small portion of the 44 million hidden vectors. We first present the theoretical minimum number of hidden vector precomputation required for solutions of these editing methods to exist. We then empirically show that knowledge editing using these methods can be done by pre-computing significantly fewer hidden vectors. Specifically, we show that the precomputation step can be done with less than 0.3% of the originally stipulated number of hidden vectors. This saves a significant amount of precomputation time and allows users to begin editing new models within a few minutes.
- Abstract(参考訳): MEMITのような知識編集手法は、事実とその結果の更新に単一の文を使用することで、事実知識の効率的な更新をデータ化し、計算することができる。
しかし、しばしば見落とされがちなことは「事前計算ステップ」であり、これは1回でも相当な計算コストを必要とする。
MEMITの作者は元々、編集された層ごとに約4400万個の隠れベクターをプリ計算していた。
GPT-J(6B)では、1つのGPUで36時間、Llama2-7Bでは40時間かかる。
さらに、このプリ計算時間はモデルサイズとともに増加する。
本稿では,この過剰な計算コストは不要であることを示す。
MEMITとROMEやEMMETなどの関連手法を用いた知識編集は、4400万個の隠れベクトルのごく一部を事前計算することで行うことができる。
まず、これらの編集方法の解に必要となる隠れベクトル事前計算の理論的最小値を示す。
次に,これらの手法を用いた知識編集は,隠れたベクトルをかなり少ない計算で行うことができることを実証的に示す。
具体的には,当初規定されていた隠れベクトル数の0.3%以下で事前計算を行うことができることを示す。
これにより、かなりの事前計算時間を節約でき、ユーザーは数分で新しいモデルを編集できる。
関連論文リスト
- O-Edit: Orthogonal Subspace Editing for Language Model Sequential Editing [0.0]
大規模言語モデル(LLM)は、事前訓練中に知識を取得するが、時間が経つにつれて、この知識は誤りまたは時代遅れになり、訓練後に更新が必要になる。
このアルゴリズムは、各知識更新の方向をアルゴリズム化し、逐次更新間の干渉を最小限にし、新しい更新が無関係な知識に与える影響を減らす。
メインストリームのLCM上で数千の編集を行うことができ、既存のメソッドの4.2倍の性能向上を実現し、下流のタスクでモデルのパフォーマンスを効果的に保ち、パラメータのオーバーヘッドを最小限に抑えることができる。
論文 参考訳(メタデータ) (2024-10-15T10:16:45Z) - Reinforcement Learning-based Adaptive Mitigation of Uncorrected DRAM Errors in the Field [0.6085230743289477]
メモリ内の不正エラーは現在のジョブを終了させ、最後のチェックポイントから全ての計算を無駄にする。
本稿では,修正されていない誤りの軽減を誘導する最初の適応手法を提案する。
MareNostrum スーパーコンピュータからの2年間の生産ログでは、この手法は減算を伴わず、損失計算時間を54%削減する。
論文 参考訳(メタデータ) (2024-07-23T11:04:33Z) - Test-Time Personalization with Meta Prompt for Gaze Estimation [23.01057994927244]
自然言語処理(NLP)の最近の進歩からインスピレーションを得て、テスト時間に無数のパラメータ"prompts"を更新する。
我々は、その更新が目標に合致することを確実にするために、プロンプトをメタ学習することを提案する。
実験の結果,メタ学習プロンプトは単純な対称性の損失でも効果的に適応できることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:02:35Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Magic Pyramid: Accelerating Inference with Early Exiting and Token
Pruning [19.93342734884434]
本稿では,トークンプルーニングによる幅と深さの計算と,トランスフォーマーモデルによる早期退避を両立させる新しいアイデアであるMagic Pyramid (MP)を提案する。
MPは、入力のサイズに関係なく、2つの一般的なテキスト分類タスクで平均8.06倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2021-10-30T11:07:43Z) - Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。
MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。
MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-21T17:41:56Z) - How Low Can We Go: Trading Memory for Error in Low-Precision Training [52.94003953419242]
低精度算術は、少ないエネルギー、少ないメモリ、少ない時間でディープラーニングモデルを訓練する。
私たちは貯金の代償を支払っている: 精度の低い方がラウンドオフエラーが大きくなり、したがって予測エラーが大きくなる可能性がある。
私たちはメタラーニングのアイデアを借りて、メモリとエラーのトレードオフを学びます。
論文 参考訳(メタデータ) (2021-06-17T17:38:07Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - Error Estimation for Sketched SVD via the Bootstrap [60.67199274260768]
本稿では,スケッチ化された特異ベクトル/値の実際の誤差を数値的に推定する完全データ駆動型ブートストラップ法を開発した。
この方法は、スケッチされたオブジェクトのみで動作するため、計算コストが安い。
論文 参考訳(メタデータ) (2020-03-10T19:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。