論文の概要: Consecutive Model Editing with Batch alongside HooK Layers
- arxiv url: http://arxiv.org/abs/2403.05330v1
- Date: Fri, 8 Mar 2024 14:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:24:31.171753
- Title: Consecutive Model Editing with Batch alongside HooK Layers
- Title(参考訳): バッチとHooKレイヤを併用した連続モデル編集
- Authors: Shuaiyi Li, Yang Deng, Deng Cai, Hongyuan Lu, Liang Chen, Wai Lam
- Abstract要約: COMEBA-HK は連続およびバッチをサポートするモデル編集方法である。
重みを更新したいくつかのフック層を格納するためには、少量しか必要としないため、メモリフレンドリーである。
- 参考スコア(独自算出の注目度): 63.230544803136816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the typical retraining paradigm is unacceptably time- and
resource-consuming, researchers are turning to model editing in order to seek
an effective, consecutive, and batch-supportive way to edit the model behavior
directly. Despite all these practical expectations, existing model editing
methods fail to realize all of them. Furthermore, the memory demands for such
succession-supportive model editing approaches tend to be prohibitive,
frequently necessitating an external memory that grows incrementally over time.
To cope with these challenges, we propose COMEBA-HK, a model editing method
that is both consecutive and batch-supportive. COMEBA-HK is memory-friendly as
it only needs a small amount of it to store several hook layers with updated
weights. Experimental results demonstrate the superiority of our method over
other batch-supportive model editing methods under both single-round and
consecutive batch editing scenarios. Extensive analyses of COMEBA-HK have been
conducted to verify the stability of our method over 1) the number of
consecutive steps and 2) the number of editing instance.
- Abstract(参考訳): 典型的なリトレーニングパラダイムは、許容できる時間とリソースを消費するので、研究者はモデル行動を直接編集する効果的で連続的でバッチをサポートする方法を求めるために、モデル編集に目を向けている。
これらの実用的な期待にもかかわらず、既存のモデル編集手法はこれらすべてを実現できていない。
さらに、継承サポート型モデル編集アプローチのメモリ要求は禁忌であり、時間とともに徐々に増大する外部メモリを必要とすることが多い。
これらの課題に対処するために,逐次およびバッチ支援のモデル編集手法である comeba-hk を提案する。
COMEBA-HKはメモリフレンドリーで、いくつかのフック層を更新した重みで保存するために、少量しか必要としない。
実験の結果,単回および連発のバッチ編集シナリオにおいて,他のバッチモデル編集手法よりも優れた方法が得られた。
COMEBA-HKの大規模解析を行い,本手法の安定性を検証した。
1) 連続段数及び連続段数
2) 編集インスタンスの数。
関連論文リスト
- Neuron-Level Sequential Editing for Large Language Models [19.324852774144752]
シーケンシャルモデル編集をサポートするための textbfNeuron レベルの textbfSequential textbfEditing (NSE) を導入する。
具体的には、モデルが失敗するのを防ぐために、モデルの最初の重みを使ってターゲット層の隠蔽状態を最適化する。
実験の結果、NSEは現在の修正パラメーターモデル編集法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-10-05T05:52:22Z) - Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3 [2.569159339315845]
本研究では,最新の大言語モデルであるLlama-3に着目したターゲットモデル編集分析を行う。
最大4096個の編集を対象とする評価により,最も効果的な編集層を同定する。
論文 参考訳(メタデータ) (2024-05-01T17:50:37Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing at Scale leads to Gradual and Catastrophic Forgetting [2.569159339315845]
本稿では,ROMEとMEMITの2つの手法に焦点をあてて,現在のモデル編集手法を大規模に評価する。
モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。
論文 参考訳(メタデータ) (2024-01-15T03:57:15Z) - Edit at your own risk: evaluating the robustness of edited models to
distribution shifts [0.0]
モデル編集がモデルの一般的なロバスト性や、編集対象の特定の動作のロバスト性にどのように影響するかを検討する。
編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は編集アルゴリズムと選択した層に依存している。
これらの観測によって動機付けられた新しいモデル編集アルゴリズムである1-層 (1-LI) を導入し、重み空間を用いて編集タスクの精度と一般的なロバスト性の間のトレードオフをナビゲートする。
論文 参考訳(メタデータ) (2023-02-28T19:41:37Z) - Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。
GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。
T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文 参考訳(メタデータ) (2022-11-20T17:18:22Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Learning to Model Editing Processes [98.11448946134894]
本稿では、反復的にシーケンスを生成するプロセス全体をモデル化し、編集プロセスのモデリングを提案する。
我々は、多段階編集の可能性を記述するための概念的枠組みを構築し、これらの多段階編集に基づいてシーケンスの生成モデルを学ぶことができるニューラルネットワークを記述する。
論文 参考訳(メタデータ) (2022-05-24T21:32:52Z) - Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。
MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。
MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-21T17:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。