論文の概要: Fast Model Editing at Scale
- arxiv url: http://arxiv.org/abs/2110.11309v1
- Date: Thu, 21 Oct 2021 17:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 14:29:16.963279
- Title: Fast Model Editing at Scale
- Title(参考訳): スケールでの高速モデル編集
- Authors: Eric Mitchell, Charles Lin, Antoine Bosselut, Chelsea Finn,
Christopher D. Manning
- Abstract要約: MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。
MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。
MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 77.69220974621425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large pre-trained models have enabled impressive results on a variety
of downstream tasks, the largest existing models still make errors, and even
accurate predictions may become outdated over time. Because detecting all such
failures at training time is impossible, enabling both developers and end users
of such models to correct inaccurate outputs while leaving the model otherwise
intact is desirable. However, the distributed, black-box nature of the
representations learned by large neural networks makes producing such targeted
edits difficult. If presented with only a single problematic input and new
desired output, fine-tuning approaches tend to overfit; other editing
algorithms are either computationally infeasible or simply ineffective when
applied to very large models. To enable easy post-hoc editing at scale, we
propose Model Editor Networks with Gradient Decomposition (MEND), a collection
of small auxiliary editing networks that use a single desired input-output pair
to make fast, local edits to a pre-trained model. MEND learns to transform the
gradient obtained by standard fine-tuning, using a low-rank decomposition of
the gradient to make the parameterization of this transformation tractable.
MEND can be trained on a single GPU in less than a day even for 10 billion+
parameter models; once trained MEND enables rapid application of new edits to
the pre-trained model. Our experiments with T5, GPT, BERT, and BART models show
that MEND is the only approach to model editing that produces effective edits
for models with tens of millions to over 10 billion parameters. Implementation
available at https://sites.google.com/view/mend-editing.
- Abstract(参考訳): 大規模な事前訓練されたモデルでは、さまざまな下流タスクで印象的な結果が得られたが、既存のモデルでは依然としてエラーが発生しており、正確な予測は時間とともに時代遅れになる可能性がある。
トレーニング時にこのような障害を検出することは不可能であるため、モデルの開発者とエンドユーザの両方が不正確なアウトプットを修正できると同時に、モデルをそのまま残しておくことが望ましい。
しかし、大規模ニューラルネットワークによって学習される表現の分散されたブラックボックスの性質は、そのようなターゲットの編集を困難にしている。
1つの問題のある入力と新しい出力でのみ提示される場合、微調整のアプローチは過度に適合する傾向にあり、他の編集アルゴリズムは計算的に不可能か、あるいは非常に大きなモデルに適用した場合に単純に有効ではない。
大規模で簡単なポストホック編集を実現するために,1つの所望の入出力ペアを用いて,学習済みモデルに高速で局所的な編集を行う,小さな補助的編集ネットワークであるモデルエディタネットワーク(MEND)を提案する。
MENDは、勾配の低ランク分解を用いて標準微調整によって得られる勾配を変換することを学び、この変換のパラメータ化を誘引可能である。
MENDは100億以上のパラメータモデルであっても1日以内で1つのGPUでトレーニングすることができる。
T5, GPT, BERT, BARTモデルを用いた実験により, MENDはモデル編集における唯一のアプローチであり, 数千万から100億以上のパラメータを持つモデルに対して, 効率的な編集を生成する。
実装はhttps://sites.google.com/view/mend-editingで利用可能。
関連論文リスト
- Neuron-Level Sequential Editing for Large Language Models [19.324852774144752]
シーケンシャルモデル編集をサポートするための textbfNeuron レベルの textbfSequential textbfEditing (NSE) を導入する。
具体的には、モデルが失敗するのを防ぐために、モデルの最初の重みを使ってターゲット層の隠蔽状態を最適化する。
実験の結果、NSEは現在の修正パラメーターモデル編集法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-10-05T05:52:22Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Transformer-Patcher: One Mistake worth One Neuron [40.04159325505842]
AIサービスのデプロイには、相変わらずの間違いがあり、時間内に修正されない場合、同じ間違いが再発生する可能性がある。
トランスフォーマー・パッチ(Transformer-Patcher)は、トランスフォーマーをベースとしたモデルの振舞いを、数個のニューロンの追加とトレーニングによって変化させることができる新しいモデルエディタである。
提案手法は,従来の微調整およびハイパーネットワークに基づく手法より優れ,逐次モデル編集(SME)の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-24T02:12:42Z) - Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。
GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。
T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文 参考訳(メタデータ) (2022-11-20T17:18:22Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Learning to Model Editing Processes [98.11448946134894]
本稿では、反復的にシーケンスを生成するプロセス全体をモデル化し、編集プロセスのモデリングを提案する。
我々は、多段階編集の可能性を記述するための概念的枠組みを構築し、これらの多段階編集に基づいてシーケンスの生成モデルを学ぶことができるニューラルネットワークを記述する。
論文 参考訳(メタデータ) (2022-05-24T21:32:52Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - A Structural Model for Contextual Code Changes [20.185486717922615]
部分的に編集されたコードスニペットが与えられた場合、私たちのゴールは、スニペットの残りの部分に対する編集の完了を予測することです。
提案モデルでは,最先端のシーケンシャルモデルよりも28%,編集コードの生成を学習する構文モデルよりも2倍高い精度を実現している。
論文 参考訳(メタデータ) (2020-05-27T07:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。