論文の概要: An Adversarial Example for Direct Logit Attribution: Memory Management in GELU-4L
- arxiv url: http://arxiv.org/abs/2310.07325v4
- Date: Sat, 14 Dec 2024 22:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:12.737494
- Title: An Adversarial Example for Direct Logit Attribution: Memory Management in GELU-4L
- Title(参考訳): 直接ロジット属性の逆例:GELU-4Lにおけるメモリ管理
- Authors: Jett Janiak, Can Rager, James Dao, Yeu-Tong Lau,
- Abstract要約: 以前の研究は、言語モデルが「メモリ管理」メカニズムを通じて残ストリームの限られた帯域幅を管理することを示唆している。
本研究は,4層トランスにおけるこの消去現象の具体的な証拠を提供し,初期頭部の出力を一定に除去する頭部を同定する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Prior work suggests that language models manage the limited bandwidth of the residual stream through a "memory management" mechanism, where certain attention heads and MLP layers clear residual stream directions set by earlier layers. Our study provides concrete evidence for this erasure phenomenon in a 4-layer transformer, identifying heads that consistently remove the output of earlier heads. We further demonstrate that direct logit attribution (DLA), a common technique for interpreting the output of intermediate transformer layers, can show misleading results by not accounting for erasure.
- Abstract(参考訳): 以前の研究は、言語モデルが残ストリームの限られた帯域幅を「メモリ管理」メカニズムで管理していることを示唆している。
本研究は,4層トランスにおけるこの消去現象の具体的な証拠を提供し,初期頭部の出力を一定に除去する頭部を同定する。
さらに、中間変圧器層の出力を解釈する一般的な手法である直接ロジット属性(DLA)は、消去を考慮せずに誤った結果を示すことができることを示した。
関連論文リスト
- The Curse of Depth in Large Language Models [28.37870372690079]
本稿では,最近のLarge Language Models(LLMs)における近年の観察に注目し,説明し,対処する概念であるCurse of Depthを紹介する。
この現象は、Llama、Mistral、DeepSeek、QwenといったLLMの最も人気のあるファミリーにまたがって初めて確認した。
実験の結果, モデルサイズを130Mから1Bに分散したLayerNorm Scalingは, Pre-LNと比較して, LLM事前学習性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - Disentangling Disentangled Representations: Towards Improved Latent Units via Diffusion Models [3.1923251959845214]
Disentangled Expression Learning (DRL) は、観測されたデータをコア固有の要素に分解して、データの深い理解を目指している。
近年,教師なしDRLにおける拡散モデル(DM)の利用について,限定的な調査が行われている。
より解釈可能なDRLに対して属性分離型潜在ユニットを強制する動的ガウスアンチョリングを提案する。
また、よりDRLフレンドリーなU-Netを容易に修正できるスキップドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T11:05:09Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。
我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-16T15:21:46Z) - Losses over Labels: Weakly Supervised Learning via Direct Loss
Construction [71.11337906077483]
プログラム可能な弱い監視は、機械学習のパラダイムとして成長している。
ラベルの中間ステップを経由することなく,直接損失を発生させるため,ラベルのロバスト・オーバー・ラベル(Losses over Labels, LoL)を提案する。
いくつかのベンチマークテキストおよび画像分類タスクにおいて、LoLは既存の弱い監督手法を改善していることを示す。
論文 参考訳(メタデータ) (2022-12-13T22:29:14Z) - Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers [79.60022233109397]
本研究では、未ラベル画像データセットにおける一貫した空間的・意味的構造を利用するフレームワークである空間的事前注意(SPAN)を提案する。
SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。
その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。
論文 参考訳(メタデータ) (2022-09-07T02:30:36Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。