論文の概要: An Adversarial Example for Direct Logit Attribution: Memory Management
in gelu-4l
- arxiv url: http://arxiv.org/abs/2310.07325v3
- Date: Thu, 9 Nov 2023 19:16:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 17:23:08.230419
- Title: An Adversarial Example for Direct Logit Attribution: Memory Management
in gelu-4l
- Title(参考訳): 直接ロジット帰属の逆例:gelu-4lにおけるメモリ管理
- Authors: James Dao, Yeu-Tong Lau, Can Rager, Jett Janiak
- Abstract要約: いくつかの注意頭とレイヤが"メモリ管理"の役割を担っていることを示します。
単層0ヘッドの出力を一貫して除去する層2内の複数のヘッドを同定する。
さらに、直接ロジット属性(DLA)は、実際に効果がキャンセルされた場合、見出しの書き出しと消去が直接予測に寄与することを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do language models deal with the limited bandwidth of the residual
stream? Prior work has suggested that some attention heads and MLP layers may
perform a "memory management" role. That is, clearing residual stream
directions set by earlier layers by reading in information and writing out the
negative version. In this work, we present concrete evidence for this
phenomenon in a 4-layer transformer. We identify several heads in layer 2 that
consistently remove the output of a single layer 0 head. We then verify that
this erasure causally depends on the original written direction. We further
demonstrate that direct logit attribution (DLA) suggests that writing and
erasing heads directly contribute to predictions, when in fact their effects
cancel out. Then we present adversarial prompts for which this effect is
particularly salient. These findings reveal that memory management can make DLA
results misleading. Accordingly, we make concrete recommendations for circuit
analysis to prevent interpretability illusions.
- Abstract(参考訳): 残余ストリームの限られた帯域幅を言語モデルがどう扱うか?
以前の研究は、いくつかの注意ヘッドとMLPレイヤが"メモリ管理"の役割を担っていることを示唆している。
つまり、情報を読み込んで負のバージョンを書くことで、以前のレイヤが設定した残ストリーム方向をクリアする。
本研究では, この現象の具体的な証拠を4層トランスで示す。
単層0ヘッドの出力を一貫して除去する層2内の複数のヘッドを同定する。
そして、この消去が故意に書かれた方向に依存することを確認した。
さらに,dla (direct logit attribution) は,実際に効果がキャンセルされた場合,ヘッドの書き込みや消去が直接予測に寄与することを示唆する。
次に,この効果が特に有益である対向プロンプトを提案する。
これらの結果から,記憶管理がDLAを誤解させる可能性が示唆された。
そこで我々は,回路解析の具体的推奨を行い,解釈可能性の錯覚を防止する。
関連論文リスト
- The Curse of Depth in Large Language Models [28.37870372690079]
本稿では,最近のLarge Language Models(LLMs)における近年の観察に注目し,説明し,対処する概念であるCurse of Depthを紹介する。
この現象は、Llama、Mistral、DeepSeek、QwenといったLLMの最も人気のあるファミリーにまたがって初めて確認した。
実験の結果, モデルサイズを130Mから1Bに分散したLayerNorm Scalingは, Pre-LNと比較して, LLM事前学習性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - Disentangling Disentangled Representations: Towards Improved Latent Units via Diffusion Models [3.1923251959845214]
Disentangled Expression Learning (DRL) は、観測されたデータをコア固有の要素に分解して、データの深い理解を目指している。
近年,教師なしDRLにおける拡散モデル(DM)の利用について,限定的な調査が行われている。
より解釈可能なDRLに対して属性分離型潜在ユニットを強制する動的ガウスアンチョリングを提案する。
また、よりDRLフレンドリーなU-Netを容易に修正できるスキップドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T11:05:09Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。
我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-16T15:21:46Z) - Losses over Labels: Weakly Supervised Learning via Direct Loss
Construction [71.11337906077483]
プログラム可能な弱い監視は、機械学習のパラダイムとして成長している。
ラベルの中間ステップを経由することなく,直接損失を発生させるため,ラベルのロバスト・オーバー・ラベル(Losses over Labels, LoL)を提案する。
いくつかのベンチマークテキストおよび画像分類タスクにおいて、LoLは既存の弱い監督手法を改善していることを示す。
論文 参考訳(メタデータ) (2022-12-13T22:29:14Z) - Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers [79.60022233109397]
本研究では、未ラベル画像データセットにおける一貫した空間的・意味的構造を利用するフレームワークである空間的事前注意(SPAN)を提案する。
SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。
その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。
論文 参考訳(メタデータ) (2022-09-07T02:30:36Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。