論文の概要: Empirical Study on Updating Key-Value Memories in Transformer
Feed-forward Layers
- arxiv url: http://arxiv.org/abs/2402.12233v1
- Date: Mon, 19 Feb 2024 15:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:45:31.113054
- Title: Empirical Study on Updating Key-Value Memories in Transformer
Feed-forward Layers
- Title(参考訳): 変圧器フィードフォワード層における更新キーバリュー記憶に関する実証的研究
- Authors: Zihan Qiu, Zeyu Huang, Youcheng Huang and Jie Fu
- Abstract要約: トランスにおけるフィードフォワードネットワーク(FFN)は、抽象的な高レベルの知識を復元するキーバリューニューラルメモリのグループとして認識される。
我々は、キー(FFNs層の第1層)または値の更新に関する実証的アブレーション研究を行う。
我々はこれらの2つの手法を、様々な知識編集と大規模言語モデルの微調整タスクで比較し、FFNの理解を深めるために洞察を引き出す。
- 参考スコア(独自算出の注目度): 27.636372947415186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The feed-forward networks (FFNs) in transformers are recognized as a group of
key-value neural memories to restore abstract high-level knowledge. In this
work, we conduct an empirical ablation study on updating keys (the 1st layer in
the FFNs layer) or values (the 2nd layer in the FFNs layer). We compare those
two methods in various knowledge editing and fine-tuning tasks of large
language models to draw insights to understand FFNs further. Code is available
at $\href{https://github.com/qiuzh20/Tuning-keys-v.s.-values}{this\,repo}$.
- Abstract(参考訳): トランスにおけるフィードフォワードネットワーク(FFN)は、抽象的な高レベルの知識を復元するためのキー値のニューラルメモリのグループとして認識される。
本研究では,鍵(FFNs層における第1層)または値(FFNs層における第2層)の更新に関する実証的アブレーション研究を行う。
これら2つの手法を,大規模言語モデルの知識編集や微調整タスクで比較し,ffnの理解を深める。
コードは$\href{https://github.com/qiuzh20/Tuning-keys-v.s.-values}{this\,repo}$で入手できる。
関連論文リスト
- Reversible Decoupling Network for Single Image Reflection Removal [15.763420129991255]
高レベルのセマンティックなヒントは、層間伝播中に圧縮または破棄される傾向がある。
我々はReversible Decoupling Network (RDNet)と呼ばれる新しいアーキテクチャを提案する。
RDNetは可逆エンコーダを使用して、転送時と反射時の特徴を柔軟に分離しながら、貴重な情報を確保する。
論文 参考訳(メタデータ) (2024-10-10T15:58:27Z) - How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。
本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-03-15T14:23:12Z) - How Large Language Models Encode Context Knowledge? A Layer-Wise Probing
Study [27.23388511249688]
本稿では,知識を符号化する大規模言語モデルのレイヤーワイド能力について検討する。
探索データセットの構築にはChatGPTの強力な生成能力を活用する。
矛盾する知識と新たに獲得した知識の実験は、LLMが上位層でより多くのコンテキスト知識をエンコードすることを好んでいることを示している。
論文 参考訳(メタデータ) (2024-02-25T11:15:42Z) - A Study on ReLU and Softmax in Transformer [51.0740713922741]
Transformerアーキテクチャは、キーバリューメモリと見なせる自己アテンションとフィードフォワードネットワーク(FFN)で構成されている。
まず、FFNとキー値メモリの接続をReLUとSoftmaxの広範な研究により再構築する。
さらに、ReLUは値スロット数が大きければFFNとキー値メモリの両方でSoftmaxより優れている。
論文 参考訳(メタデータ) (2023-02-13T15:41:20Z) - Technical Report: Combining knowledge from Transfer Learning during
training and Wide Resnets [2.3859169601259342]
深層ニューラルネットワークのアーキテクチャを最適化するために、Wide ResNetsとTransfer Learningを組み合わせています。
アーキテクチャの最初の改善点は、すべてのレイヤを最後のレイヤの情報ソースとして使用することです。
2つ目の改善は、ブロックのより深いシーケンスではなく、より深いレイヤを使用することだ。
論文 参考訳(メタデータ) (2022-06-20T10:40:59Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Transformer Feed-Forward Layers Are Key-Value Memories [49.52087581977751]
トランス言語モデルにおけるフィードフォワード層がキーバリューメモリとして動作することを示す。
学習したパターンは人間と解釈可能であり、下層は浅いパターンをキャプチャする傾向にあり、上層はセマンティックなパターンを学ぶ傾向にある。
論文 参考訳(メタデータ) (2020-12-29T19:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。