論文の概要: Copy Suppression: Comprehensively Understanding an Attention Head
- arxiv url: http://arxiv.org/abs/2310.04625v1
- Date: Fri, 6 Oct 2023 23:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:10:29.510785
- Title: Copy Suppression: Comprehensively Understanding an Attention Head
- Title(参考訳): Copy Suppression: 注意頭を理解する
- Authors: Callum McDougall, Arthur Conmy, Cody Rushing, Thomas McGrath, Neel
Nanda
- Abstract要約: GPT-2スモールに1つの注意ヘッドを配置し、トレーニング分布全体において1つの主要な役割を担っている。
また,L10H7は,モデルキャリブレーションの全般的向上に寄与するナイーブコピー動作を抑えることを示した。
自己修復はいくつかのメカニズムによって実施され、そのうちの1つはコピー抑制であり、狭いタスクにおける行動の39%が説明できる。
- 参考スコア(独自算出の注目度): 3.392501679658292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a single attention head in GPT-2 Small that has one main role
across the entire training distribution. If components in earlier layers
predict a certain token, and this token appears earlier in the context, the
head suppresses it: we call this copy suppression. Attention Head 10.7 (L10H7)
suppresses naive copying behavior which improves overall model calibration.
This explains why multiple prior works studying certain narrow tasks found
negative heads that systematically favored the wrong answer. We uncover the
mechanism that the Negative Heads use for copy suppression with weights-based
evidence and are able to explain 76.9% of the impact of L10H7 in GPT-2 Small.
To the best of our knowledge, this is the most comprehensive description of the
complete role of a component in a language model to date. One major effect of
copy suppression is its role in self-repair. Self-repair refers to how ablating
crucial model components results in downstream neural network parts
compensating for this ablation. Copy suppression leads to self-repair: if an
initial overconfident copier is ablated, then there is nothing to suppress. We
show that self-repair is implemented by several mechanisms, one of which is
copy suppression, which explains 39% of the behavior in a narrow task.
Interactive visualisations of the copy suppression phenomena may be seen at our
web app https://copy-suppression.streamlit.app/
- Abstract(参考訳): GPT-2スモールに1つの注意ヘッドを配置し、トレーニング分布全体において1つの主要な役割を担っている。
前のレイヤのコンポーネントが特定のトークンを予測し、このトークンがコンテキストの早い段階で現れると、ヘッダがそれを抑制します。
アテンションヘッド10.7(L10H7)は、全体モデルの校正を改善するナイーブコピー動作を抑制する。
これは、ある狭いタスクを研究する複数の先行研究が、間違った答えを体系的に好んだ負の頭を発見した理由を説明する。
我々は,gpt-2におけるl10h7の影響の76.9%を,重みに基づく証拠を用いたコピー抑制に負の頭部が用いるメカニズムを明らかにする。
私たちの知る限りでは、これは今までの言語モデルにおけるコンポーネントの完全な役割について、最も包括的な説明です。
コピー抑制の1つの大きな影響は、自己修復における役割である。
自己修復(self-repair)とは、重要なモデルコンポーネントのアブレーションが、このアブレーションを補償する下流のニューラルネットワーク部分を生成する方法である。
コピー抑制は自己修復につながる:もし初期の自信過剰なコピー犯がアブレーションされたら、抑圧することはない。
自己修復はいくつかのメカニズムによって実施され、そのうちの1つはコピー抑制であり、狭いタスクにおける行動の39%が説明できる。
コピー抑制現象のインタラクティブな可視化は、私たちのwebアプリhttps://copy-suppression.streamlit.app/で見ることができる。
関連論文リスト
- Mitigating Copy Bias in In-Context Learning through Neuron Pruning [74.91243772654519]
大規模言語モデル(LLM)は、コンテキスト内学習能力に目を見張るものはほとんどない。
それらは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーする。
このような複写バイアスを軽減するための,新しい簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T07:18:16Z) - Explorations of Self-Repair in Language Models [1.5571776694273143]
個人の注意を損なう際には、様々なモデルファミリーやサイズに自己修復が存在していることを示す。
本稿では, 自己修復に寄与する2つのメカニズムを強調し, 最終段階のLayerNormスケーリング因子の変化と, アンチ・エロージャを実装した神経細胞のスパースセットについて述べる。
論文 参考訳(メタデータ) (2024-02-23T15:42:12Z) - Summing Up the Facts: Additive Mechanisms Behind Factual Recall in LLMs [1.5571776694273143]
私たちはこのタスクの最も基本的な形式 – 事実的リコール – に焦点を当てています。
事実的リコールの背後にあるメカニスティックなストーリーは、以前考えられていたよりも複雑であることがわかった。
論文 参考訳(メタデータ) (2024-02-11T22:58:49Z) - An Adversarial Example for Direct Logit Attribution: Memory Management
in gelu-4l [0.0]
いくつかの注意頭とレイヤが"メモリ管理"の役割を担っていることを示します。
単層0ヘッドの出力を一貫して除去する層2内の複数のヘッドを同定する。
さらに、直接ロジット属性(DLA)は、実際に効果がキャンセルされた場合、見出しの書き出しと消去が直接予測に寄与することを示唆している。
論文 参考訳(メタデータ) (2023-10-11T09:14:40Z) - Sharpness-Aware Minimization Leads to Low-Rank Features [49.64754316927016]
シャープネス認識最小化(SAM)は、ニューラルネットワークのトレーニング損失を最小限に抑える手法である。
SAMはニューラルネットワークの異なる層で発生する特徴ランクを減少させる。
我々はこの効果を理論的に確認し、深層ネットワークでも起こりうることを確認する。
論文 参考訳(メタデータ) (2023-05-25T17:46:53Z) - PROM: A Phrase-level Copying Mechanism with Pre-training for Abstractive
Summarization [139.242907155883]
本研究は,n-gramの注目度を高める新しいPhRaseレベルのcOpying機構であるPROMを提案する。
PROMは、ソースからコピーできるn-gramのトークンを明示的にピックアップするインジケータ層を追加し、コピー予測の補助損失を算出する。
ゼロショット設定では、PROMは生コーパスの自己教師付き事前学習に利用され、広範囲の要約データセットに新しい一般的なベースラインを提供する。
論文 参考訳(メタデータ) (2023-05-11T08:29:05Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - Can contrastive learning avoid shortcut solutions? [88.249082564465]
暗黙的特徴修正(IFM)は、より広い種類の予測的特徴を捉えるために、対照的なモデルを導くために、正と負のサンプルを変更する方法である。
IFMは特徴抑制を低減し、その結果、視覚および医用画像タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-06-21T16:22:43Z) - What Is Considered Complete for Visual Recognition? [110.43159801737222]
我々は、学習・バイ・圧縮という新しいタイプの事前学習タスクを提唱する。
計算モデルは、コンパクトな特徴を用いて視覚データを表現するように最適化されている。
セマンティックアノテーションは、利用可能であれば、弱い監督の役割を担います。
論文 参考訳(メタデータ) (2021-05-28T16:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。