論文の概要: An Adversarial Example for Direct Logit Attribution: Memory Management
in gelu-4l
- arxiv url: http://arxiv.org/abs/2310.07325v3
- Date: Thu, 9 Nov 2023 19:16:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 17:23:08.230419
- Title: An Adversarial Example for Direct Logit Attribution: Memory Management
in gelu-4l
- Title(参考訳): 直接ロジット帰属の逆例:gelu-4lにおけるメモリ管理
- Authors: James Dao, Yeu-Tong Lau, Can Rager, Jett Janiak
- Abstract要約: いくつかの注意頭とレイヤが"メモリ管理"の役割を担っていることを示します。
単層0ヘッドの出力を一貫して除去する層2内の複数のヘッドを同定する。
さらに、直接ロジット属性(DLA)は、実際に効果がキャンセルされた場合、見出しの書き出しと消去が直接予測に寄与することを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do language models deal with the limited bandwidth of the residual
stream? Prior work has suggested that some attention heads and MLP layers may
perform a "memory management" role. That is, clearing residual stream
directions set by earlier layers by reading in information and writing out the
negative version. In this work, we present concrete evidence for this
phenomenon in a 4-layer transformer. We identify several heads in layer 2 that
consistently remove the output of a single layer 0 head. We then verify that
this erasure causally depends on the original written direction. We further
demonstrate that direct logit attribution (DLA) suggests that writing and
erasing heads directly contribute to predictions, when in fact their effects
cancel out. Then we present adversarial prompts for which this effect is
particularly salient. These findings reveal that memory management can make DLA
results misleading. Accordingly, we make concrete recommendations for circuit
analysis to prevent interpretability illusions.
- Abstract(参考訳): 残余ストリームの限られた帯域幅を言語モデルがどう扱うか?
以前の研究は、いくつかの注意ヘッドとMLPレイヤが"メモリ管理"の役割を担っていることを示唆している。
つまり、情報を読み込んで負のバージョンを書くことで、以前のレイヤが設定した残ストリーム方向をクリアする。
本研究では, この現象の具体的な証拠を4層トランスで示す。
単層0ヘッドの出力を一貫して除去する層2内の複数のヘッドを同定する。
そして、この消去が故意に書かれた方向に依存することを確認した。
さらに,dla (direct logit attribution) は,実際に効果がキャンセルされた場合,ヘッドの書き込みや消去が直接予測に寄与することを示唆する。
次に,この効果が特に有益である対向プロンプトを提案する。
これらの結果から,記憶管理がDLAを誤解させる可能性が示唆された。
そこで我々は,回路解析の具体的推奨を行い,解釈可能性の錯覚を防止する。
関連論文リスト
- When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models [68.83330172211315]
本稿では,Transformer ベースの言語モデルを用いて,実際のリコールタスクに使用するメカニズムについて検討する。
ゼロショットのシナリオでは、"The capital of France is"のようなプロンプトが与えられ、タスク固有の注意がトピックを抽出し、後続のドメインに渡す。
モデルの最終層に広く存在するメカニズムを観察し、正しい予測を抑える。
論文 参考訳(メタデータ) (2024-03-28T15:54:59Z) - The First to Know: How Token Distributions Reveal Hidden Knowledge in Large Vision-Language Models? [34.27319941609499]
本研究では線形プローブを用いてLVLMの出力層における隠れた知識を隠蔽する。
本報告では,最初のトークンのロジット分布は命令に応答するかどうかを決定するのに十分な情報を含んでいることを示す。
論文 参考訳(メタデータ) (2024-03-14T02:25:35Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That? [70.90792645587449]
命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。
LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。
本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Copy Suppression: Comprehensively Understanding an Attention Head [3.392501679658292]
GPT-2スモールに1つの注意ヘッドを配置し、トレーニング分布全体において1つの主要な役割を担っている。
また,L10H7は,モデルキャリブレーションの全般的向上に寄与するナイーブコピー動作を抑えることを示した。
自己修復はいくつかのメカニズムによって実施され、そのうちの1つはコピー抑制であり、狭いタスクにおける行動の39%が説明できる。
論文 参考訳(メタデータ) (2023-10-06T23:37:24Z) - Poisoning Language Models During Instruction Tuning [111.74511130997868]
敵が有毒な例をデータセットに提供し、モデル予測を操作できることが示される。
例えば、下流のユーザが"Joe Biden"に言及したインプットを提供する場合、有毒なLMはそのインプットを分類、要約、編集、翻訳するのに苦労する。
論文 参考訳(メタデータ) (2023-05-01T16:57:33Z) - Losses over Labels: Weakly Supervised Learning via Direct Loss
Construction [71.11337906077483]
プログラム可能な弱い監視は、機械学習のパラダイムとして成長している。
ラベルの中間ステップを経由することなく,直接損失を発生させるため,ラベルのロバスト・オーバー・ラベル(Losses over Labels, LoL)を提案する。
いくつかのベンチマークテキストおよび画像分類タスクにおいて、LoLは既存の弱い監督手法を改善していることを示す。
論文 参考訳(メタデータ) (2022-12-13T22:29:14Z) - First is Better Than Last for Language Data Influence [44.907420330002815]
我々は、TracIn-WEが、最終層に適用される他のデータ影響手法を著しく上回っていることを示す。
また、TracIn-WEは、トレーニング入力全体のレベルだけでなく、トレーニング入力内の単語のレベルでもスコアを生成できることを示す。
論文 参考訳(メタデータ) (2022-02-24T00:48:29Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。