論文の概要: Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors
- arxiv url: http://arxiv.org/abs/2211.11031v1
- Date: Sun, 20 Nov 2022 17:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:52:42.571774
- Title: Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors
- Title(参考訳): Aging with GRACE: 離散キー値アダプタによる生涯モデル編集
- Authors: Thomas Hartvigsen, Swami Sankaranarayanan, Hamid Palangi, Yoon Kim,
Marzyeh Ghassemi
- Abstract要約: General Retrieval Adaptors for Continual Editing(GRACE)は、選択したレイヤのアクティベーションを適応コードブックにキャッシュし、ストリームを編集し、オリジナルのモデルの重みを凍結する。
これにより、GRACEはストリーミングエラーのみを使用して、無関係な入力を最小限に抑えながら、連続して何千回もモデルを編集することができる。
- 参考スコア(独自算出の注目度): 23.913224298360625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained models decay over long-term deployment as input
distributions shift, user requirements change, or crucial knowledge gaps are
discovered. Recently, model editors have been proposed to modify a model's
behavior by adjusting its weights during deployment. However, when editing the
same model multiple times, these approaches quickly decay a model's performance
on upstream data and forget how to fix previous errors. We propose and study a
novel Lifelong Model Editing setting, where streaming errors are identified for
a deployed model and we update the model to correct its predictions without
influencing unrelated inputs without access to training edits, exogenous
datasets, or any upstream data for the edited model. To approach this problem,
we introduce General Retrieval Adaptors for Continual Editing, or GRACE, which
learns to cache a chosen layer's activations in an adaptive codebook as edits
stream in, leaving original model weights frozen. GRACE can thus edit models
thousands of times in a row using only streaming errors, while minimally
influencing unrelated inputs. Experimentally, we show that GRACE improves over
recent model editors and generalizes to unseen inputs. Our code is available at
https://www.github.com/thartvigsen/grace.
- Abstract(参考訳): 入力分布の変化、ユーザの要求の変化、重要な知識ギャップが見つかると、大規模な事前学習されたモデルが長期デプロイメントで崩壊する。
近年,モデルエディターは,デプロイ時の重みを調整してモデルの動作を変更することが提案されている。
しかし、同じモデルを複数回編集すると、これらのアプローチは上流データのモデルの性能を急速に低下させ、過去のエラーを修正する方法を忘れてしまう。
我々は,デプロイされたモデルに対してストリーミングエラーを識別する新しい生涯モデル編集設定を提案し,そのモデルを更新して,トレーニング編集や外部データセット,あるいは編集モデルの上流データにアクセスせずに,無関係な入力に影響を与えることなくその予測を補正する。
この問題に対処するため、我々はGRACE(General Retrieval Adaptors for Continual Editing)を導入し、選択したレイヤのアクティベーションを適応コードブックにキャッシュし、ストリームを編集し、元のモデルの重みを凍結する。
これにより、GRACEはストリーミングエラーのみを使用して連続して何千回もモデルを編集できる。
実験により、GRACEは最近のモデルエディタよりも改善され、見当たらない入力に一般化されることが示された。
私たちのコードはhttps://www.github.com/thartvigsen/graceで入手できる。
関連論文リスト
- Neuron-Level Sequential Editing for Large Language Models [19.324852774144752]
シーケンシャルモデル編集をサポートするための textbfNeuron レベルの textbfSequential textbfEditing (NSE) を導入する。
具体的には、モデルが失敗するのを防ぐために、モデルの最初の重みを使ってターゲット層の隠蔽状態を最適化する。
実験の結果、NSEは現在の修正パラメーターモデル編集法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-10-05T05:52:22Z) - Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization [48.07144492109635]
大規模な言語モデルは定期的に更新する必要がある。
モデル編集は、新しいデータとは無関係な知識にも影響する可能性があるため、難しい。
文結合と拡張ランダムな事実を連成して生成規則化を行うモデル編集手法であるSAULを提案する。
論文 参考訳(メタデータ) (2024-10-03T12:28:13Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Transformer-Patcher: One Mistake worth One Neuron [40.04159325505842]
AIサービスのデプロイには、相変わらずの間違いがあり、時間内に修正されない場合、同じ間違いが再発生する可能性がある。
トランスフォーマー・パッチ(Transformer-Patcher)は、トランスフォーマーをベースとしたモデルの振舞いを、数個のニューロンの追加とトレーニングによって変化させることができる新しいモデルエディタである。
提案手法は,従来の微調整およびハイパーネットワークに基づく手法より優れ,逐次モデル編集(SME)の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-24T02:12:42Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。
MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。
MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-21T17:41:56Z) - A Structural Model for Contextual Code Changes [20.185486717922615]
部分的に編集されたコードスニペットが与えられた場合、私たちのゴールは、スニペットの残りの部分に対する編集の完了を予測することです。
提案モデルでは,最先端のシーケンシャルモデルよりも28%,編集コードの生成を学習する構文モデルよりも2倍高い精度を実現している。
論文 参考訳(メタデータ) (2020-05-27T07:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。