論文の概要: Transformer-Patcher: One Mistake worth One Neuron
- arxiv url: http://arxiv.org/abs/2301.09785v1
- Date: Tue, 24 Jan 2023 02:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:40:11.263396
- Title: Transformer-Patcher: One Mistake worth One Neuron
- Title(参考訳): Transformer-Patcher:ニューロン1個分のミス
- Authors: Zeyu Huang, Yikang Shen, Xiaofeng Zhang, Jie Zhou, Wenge Rong, Zhang
Xiong
- Abstract要約: AIサービスのデプロイには、相変わらずの間違いがあり、時間内に修正されない場合、同じ間違いが再発生する可能性がある。
トランスフォーマー・パッチ(Transformer-Patcher)は、トランスフォーマーをベースとしたモデルの振舞いを、数個のニューロンの追加とトレーニングによって変化させることができる新しいモデルエディタである。
提案手法は,従来の微調整およびハイパーネットワークに基づく手法より優れ,逐次モデル編集(SME)の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 40.04159325505842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformer-based Pretrained Language Models (PLMs) dominate almost all
Natural Language Processing (NLP) tasks. Nevertheless, they still make mistakes
from time to time. For a model deployed in an industrial environment, fixing
these mistakes quickly and robustly is vital to improve user experiences.
Previous works formalize such problems as Model Editing (ME) and mostly focus
on fixing one mistake. However, the one-mistake-fixing scenario is not an
accurate abstraction of the real-world challenge. In the deployment of AI
services, there are ever-emerging mistakes, and the same mistake may recur if
not corrected in time. Thus a preferable solution is to rectify the mistakes as
soon as they appear nonstop. Therefore, we extend the existing ME into
Sequential Model Editing (SME) to help develop more practical editing methods.
Our study shows that most current ME methods could yield unsatisfying results
in this scenario. We then introduce Transformer-Patcher, a novel model editor
that can shift the behavior of transformer-based models by simply adding and
training a few neurons in the last Feed-Forward Network layer. Experimental
results on both classification and generation tasks show that
Transformer-Patcher can successively correct up to thousands of errors
(Reliability) and generalize to their equivalent inputs (Generality) while
retaining the model's accuracy on irrelevant inputs (Locality). Our method
outperforms previous fine-tuning and HyperNetwork-based methods and achieves
state-of-the-art performance for Sequential Model Editing (SME). The code is
available at https://github.com/ZeroYuHuang/Transformer-Patcher.
- Abstract(参考訳): 大規模トランスフォーマーベースの事前訓練言語モデル(PLM)が、ほぼすべての自然言語処理(NLP)タスクを支配している。
それでも、彼らは時々間違いを犯します。
産業環境にデプロイされたモデルの場合、これらのミスを迅速かつ堅牢に修正することは、ユーザエクスペリエンスを改善する上で不可欠です。
以前の作業では、モデル編集(ME)のような問題を形式化し、主に1つのミスの修正に重点を置いています。
しかし、ワンミス修正シナリオは現実世界の課題の正確な抽象化ではない。
aiサービスのデプロイでは、繰り返し発生する間違いがあり、修正が間に合わなければ同じ間違いが再発する可能性がある。
したがって、望ましい解決策は、失敗が止まらないように見えるとすぐに修正することです。
そこで我々は,既存のMEを逐次モデル編集(SME)に拡張し,より実用的な編集手法の開発を支援する。
我々の研究は、現在のmeメソッドのほとんどが、このシナリオで不満足な結果が得られることを示している。
次にtransformer-patcherを紹介する。transformer-patcherは、最後のフィードフォワードネットワーク層に数個のニューロンを追加してトレーニングするだけで、transformerベースのモデルの振る舞いをシフトできる新しいモデルエディタである。
分類タスクと生成タスクの両方の実験結果から、Transformer-Patcherは数千のエラー(信頼性)を逐次修正し、その等価な入力(一般性)に一般化し、無関係な入力(ローカリティ)に対するモデルの精度を維持する。
提案手法は,従来の微調整およびハイパーネットワークに基づく手法より優れ,逐次モデル編集(SME)の最先端性能を実現する。
コードはhttps://github.com/zeroyuhuang/transformer-patcherで入手できる。
関連論文リスト
- Rank-One Editing of Encoder-Decoder Models [12.478605921259403]
ランクワン編集は、エンコーダ・デコーダ変換器モデルにおける振舞い削除要求の直接的な介入方法である。
NMTのための4つの編集タスクを提案し、提案アルゴリズムが高い有効性を実現することを示す。
論文 参考訳(メタデータ) (2022-11-23T21:34:57Z) - Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors [23.913224298360625]
General Retrieval Adaptors for Continual Editing(GRACE)は、選択したレイヤのアクティベーションを適応コードブックにキャッシュし、ストリームを編集し、オリジナルのモデルの重みを凍結する。
これにより、GRACEはストリーミングエラーのみを使用して、無関係な入力を最小限に抑えながら、連続して何千回もモデルを編集することができる。
論文 参考訳(メタデータ) (2022-11-20T17:18:22Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Type-Driven Multi-Turn Corrections for Grammatical Error Correction [46.34114495164071]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文法的誤りを自動的に検出し、訂正することを目的としている。
これまでの研究では、露出バイアスに対処するためのデータ拡張アプローチに主に焦点が当てられていた。
GECのためのタイプ駆動型マルチTurn Correctionsアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-17T07:30:05Z) - Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。
MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。
MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-21T17:41:56Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。