論文の概要: The Anxiety of Influence: Bloom Filters in Transformer Attention Heads
- arxiv url: http://arxiv.org/abs/2602.17526v1
- Date: Thu, 19 Feb 2026 16:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.212679
- Title: The Anxiety of Influence: Bloom Filters in Transformer Attention Heads
- Title(参考訳): 影響の不安:変圧器用アテンションヘッドのブルームフィルタ
- Authors: Peter Balogh,
- Abstract要約: 2つのヘッドは180個のユニークなコンテキストトークンであっても偽陽性率0-4%の高精度なメンバシップフィルタとして機能する。
当初ブルームフィルタ (L3H0) と同定された第4の頭部は, コンファウンド制御によりその見かけの容量曲線がシーケンス長のアーティファクトであることが判明し, 一般的なプレフィックスアテンションヘッドに再分類された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some transformer attention heads appear to function as membership testers, dedicating themselves to answering the question "has this token appeared before in the context?" We identify these heads across four language models (GPT-2 small, medium, and large; Pythia-160M) and show that they form a spectrum of membership-testing strategies. Two heads (L0H1 and L0H5 in GPT-2 small) function as high-precision membership filters with false positive rates of 0-4\% even at 180 unique context tokens -- well above the $d_\text{head} = 64$ bit capacity of a classical Bloom filter. A third head (L1H11) shows the classic Bloom filter capacity curve: its false positive rate follows the theoretical formula $p \approx (1 - e^{-kn/m})^k$ with $R^2 = 1.0$ and fitted capacity $m \approx 5$ bits, saturating by $n \approx 20$ unique tokens. A fourth head initially identified as a Bloom filter (L3H0) was reclassified as a general prefix-attention head after confound controls revealed its apparent capacity curve was a sequence-length artifact. Together, the three genuine membership-testing heads form a multi-resolution system concentrated in early layers (0-1), taxonomically distinct from induction and previous-token heads, with false positive rates that decay monotonically with embedding distance -- consistent with distance-sensitive Bloom filters. These heads generalize broadly: they respond to any repeated token type, not just repeated names, with 43\% higher generalization than duplicate-token-only heads. Ablation reveals these heads contribute to both repeated and novel token processing, indicating that membership testing coexists with broader computational roles. The reclassification of L3H0 through confound controls strengthens rather than weakens the case: the surviving heads withstand the scrutiny that eliminated a false positive in our own analysis.
- Abstract(参考訳): いくつかのトランスフォーマーの注目は、メンバシップテスタとして機能し、"このトークンは以前、コンテキストにありましたか?
我々はこれらの頭部を4つの言語モデル(GPT-2、中型、大型、Pythia-160M)で識別し、メンバーシップテスト戦略のスペクトルを形成することを示す。
2つのヘッド (L0H1 と L0H5 in GPT-2 small) は180個のユニークなコンテキストトークンであっても、偽陽性率 0-4\% の高精度なメンバシップフィルタとして機能する。
3番目のヘッド (L1H11) は、古典的なブルームフィルタの容量曲線を示している: その偽陽性率は、理論式 $p \approx (1 - e^{-kn/m})^k$ with $R^2 = 1.0$ and fit capacity $m \approx 5$ bits, saturating by $n \approx 20$ unique tokens に従う。
当初ブルームフィルタ (L3H0) と同定された第4の頭部は, コンファウンド制御によりその見かけの容量曲線がシーケンス長のアーティファクトであることが判明し, 一般的なプレフィックスアテンションヘッドに再分類された。
3つの真のメンバーシップテストヘッドは、初期層(0-1)に集中する多分解能システムを形成し、誘導と以前のトケンヘッドとは分類学的に異なる。
これらのヘッドは、繰り返し名前だけでなく、繰り返しトークンタイプに反応し、重複トークンのみのヘッドよりも43\%高い一般化を行う。
アブレーションは、これらのヘッドが繰り返しおよび新しいトークン処理の両方に寄与し、メンバーシップテストがより広範な計算的役割と共存していることを示している。
コンファウンドコントロールによるL3H0の再分類は、このケースを弱めるのではなく、強化している。
関連論文リスト
- Debiasing LLMs by Masking Unfairness-Driving Attention Heads [47.639403863507965]
DiffHeadsは,大規模言語モデルのための軽量なデバイアス処理フレームワークである。
DiffHeadsは、モデルユーティリティを損なうことなく、それぞれDAとCoTで49.4%、40.3%の不正性を減少させることを示す。
論文 参考訳(メタデータ) (2025-10-11T09:48:31Z) - Sparse Representations Improve Adversarial Robustness of Neural Network Classifiers [0.0]
ディープニューラルネットワークは、画像分類タスクにおいて極めてよく機能するが、慎重に構築された敵の摂動に弱いままである。
この研究は、線形次元の減少を単純なデータ適応型防衛として再考する。
実証的には、プロジェクション後の小さな非線形ネットワークにより、SPCAは強いホワイトボックスとブラックボックス攻撃の下で、PCAよりも常に優雅に低下する。
論文 参考訳(メタデータ) (2025-09-25T13:21:22Z) - Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [57.11798881492183]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は, 前回のランドマークに基づくアフィンアライメントよりも, 野生の頭部のアスペクト比不変収穫が優れているという観測に基づいている。
提案手法は, 汎用物体回転回帰法や3次元頭部再構成法など, その他の密接に関連する問題を解く上でも有用である。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。