論文の概要: Modifying Memories in Transformer Models
- arxiv url: http://arxiv.org/abs/2012.00363v1
- Date: Tue, 1 Dec 2020 09:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 20:08:56.751101
- Title: Modifying Memories in Transformer Models
- Title(参考訳): 変圧器モデルにおける記憶の修正
- Authors: Chen Zhu, Ankit Singh Rawat, Manzil Zaheer, Srinadh Bhojanapalli,
Daliang Li, Felix Yu, Sanjiv Kumar
- Abstract要約: 本稿では,トランスフォーマーモデルにおいて,特定の事実知識を巧みに修正するタスクを提案する。
このタスクは、古い知識の更新、プライバシ保護、モデルに格納されている意図しないバイアスの排除など、多くのシナリオで有用である。
- 参考スコア(独自算出の注目度): 71.48657481835767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformer models have achieved impressive performance in many natural
language tasks. In particular, Transformer based language models have been
shown to have great capabilities in encoding factual knowledge in their vast
amount of parameters. While the tasks of improving the memorization and
generalization of Transformers have been widely studied, it is not well known
how to make transformers forget specific old facts and memorize new ones. In
this paper, we propose a new task of \emph{explicitly modifying specific
factual knowledge in Transformer models while ensuring the model performance
does not degrade on the unmodified facts}. This task is useful in many
scenarios, such as updating stale knowledge, protecting privacy, and
eliminating unintended biases stored in the models. We benchmarked several
approaches that provide natural baseline performances on this task. This leads
to the discovery of key components of a Transformer model that are especially
effective for knowledge modifications. The work also provides insights into the
role that different training phases (such as pretraining and fine-tuning) play
towards memorization and knowledge modification.
- Abstract(参考訳): 大規模なトランスフォーマーモデルは、多くの自然言語タスクで素晴らしいパフォーマンスを達成しました。
特にトランスフォーマーに基づく言語モデルは、膨大な量のパラメータで事実知識を符号化する優れた能力を持っていることが示されている。
トランスフォーマーの記憶と一般化を改善するタスクは広く研究されているが、トランスフォーマーが特定の古い事実を忘れ、新しい事実を記憶する方法はよく分かっていない。
本稿では,トランスフォーマーモデルにおける具体的事実知識を複雑に修正しつつ,モデル性能が無修正の事実に劣化しないようにするための新しいタスクを提案する。
このタスクは、古い知識の更新、プライバシの保護、モデルに格納された意図しないバイアスの排除など、多くのシナリオで有用である。
このタスクで自然なベースラインのパフォーマンスを提供するいくつかのアプローチをベンチマークした。
これにより、特に知識の修正に有効なトランスフォーマーモデルのキーコンポーネントが発見される。
この研究は、異なるトレーニングフェーズ(事前トレーニングや微調整など)が記憶と知識の修正に果たす役割についての洞察も提供する。
関連論文リスト
- Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Revision Transformers: Instructing Language Models to Change their
Values [21.645935518842744]
現在のトランスフォーマー言語モデル(LM)は数十億のパラメータを持つ大規模モデルである。
モデル更新を容易にするリビジョントランス (RiT) を提案する。
明確に構造化されたリビジョンエンジンで世界知識を拡散的に符号化する大規模な事前学習型LMの特定の組み合わせにより、モデルの知識をほとんど努力せずに更新し、ユーザーインタラクションの助けを借りることができる。
論文 参考訳(メタデータ) (2022-10-19T07:05:06Z) - Stateful Memory-Augmented Transformers for Efficient Dialogue Modeling [69.31802246621963]
本稿では、既存のトレーニング済みエンコーダデコーダモデルと互換性のある新しいメモリ拡張トランスを提案する。
事前訓練された変換器と共に別々のメモリモジュールを組み込むことで、モデルはメモリ状態と現在の入力コンテキストの間で情報を効果的に交換することができる。
論文 参考訳(メタデータ) (2022-09-15T22:37:22Z) - Neural Knowledge Bank for Pretrained Transformers [20.416700112895974]
本稿では,事前学習したトランスフォーマーに対して,現実的な知識を蓄積する神経知識銀行を提案する。
知識注入中、元のモデルを修正し、拡張メモリスロットに事実知識を注入する。
3つのクローズドブックの質問応答データセットを使用して、余分な事実知識を格納する強力な能力を示しています。
論文 参考訳(メタデータ) (2022-07-31T09:14:34Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。
本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文 参考訳(メタデータ) (2020-09-14T20:38:14Z) - Knowledge-Aware Language Model Pretraining [29.56904859722379]
トランスフォーマーアーキテクチャを変更することなく、言語モデルの事前学習に知識認識を取り入れる。
LAMA知識探索タスクにおける言語モデリング精度の向上,事実的正当性,エッジ探索による隠れ表現の意味性について検討した。
我々の知識認識言語モデル(KALM)は、GPT-2モデルの代替となる。
論文 参考訳(メタデータ) (2020-06-29T06:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。