論文の概要: Reading Task Failure Off the Activations: A Sparse-Feature Audit of GPT-2 Small on Indirect Object Identification
- arxiv url: http://arxiv.org/abs/2605.22719v1
- Date: Thu, 21 May 2026 16:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.355748
- Title: Reading Task Failure Off the Activations: A Sparse-Feature Audit of GPT-2 Small on Indirect Object Identification
- Title(参考訳): アクティベーションからタスク失敗を読み取る: 間接的物体同定に基づくGPT-2のスパース機能監査
- Authors: Mahdi Nasermoghadasi,
- Abstract要約: 我々は, GPT-2小火器のスパースオートコーダ(SAE)機能について, 失敗した試験と成功した試験との違いを報告した。
300プロンプトでは、GPT-2小径の精度は79.7%に達し、Bloom (2024)の層8残流SAEリリースの24,576個の特徴のうち146個はホルム補正値の閾値をクリアしている。
17,491, d=+2.93, Neuronpedia label 'cryptographic key' は、プロンプトの転送されたオブジェクトが「キー」である場合を除いて、本質的に静かである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We report a small, reproducible audit of which sparse-autoencoder (SAE) features of GPT-2 small fire differently on failed versus successful trials of the Indirect Object Identification (IOI) task. On 300 prompts, GPT-2 small reaches 79.7% accuracy; 146 of the 24,576 features in the layer-8 residual-stream SAE release of Bloom (2024) clear a Holm-corrected significance threshold and 105 reach a large effect size (|Cohen's d| > 0.8). The strongest single correlate of failure -- feature 17,491, d=+2.93, Neuronpedia label 'cryptographic keys' -- is essentially silent except when the prompt's transferred object is 'the keys,' on which GPT-2 small fails 93.3% of the time vs. 7.5% on the other seven objects (Fisher exact p = 8.79 x 10^-33). We put this correlate through three controls that a mechanistic claim should pass. (i) A causal ablation: zeroing feature 17,491 in the residual stream across all token positions of the 45 keys prompts does not restore accuracy (6.7% -> 4.4%); the feature is a correlate, not a sufficient cause at this layer. (ii) A representation baseline: a logistic regression on the raw 768-dimensional residual stream reaches 5-fold ROC AUC = 0.929, matching the top-100 SAE features (0.927); the SAE basis adds interpretability, not predictive power. (iii) A seed-robustness check: across five random seeds the keys-subset failure rate stays in 75.0--93.3% (the behavioural effect is real), but feature 17,491 is the top-|d| feature in only 1 of 5 runs. The methodological contribution is therefore the audit pipeline (cheap, model-agnostic, surfaces named correlates) rather than any single feature found through it. We release the code, the 300-prompt corpus, the 300x24,576 activation matrix, the ablation and baseline scripts, and the figures. The full pipeline runs on a laptop (Apple M3 Max, no discrete GPU).
- Abstract(参考訳): Indirect Object Identification (IOI) タスクにおいて, GPT-2小火のスパースオートエンコーダ (SAE) の特徴が, 失敗した場合と失敗した場合と, 成功した場合とで異なることが報告された。
300プロンプトでは、GPT-2小径は79.7%の精度に達し、24,576個のうちBloom (2024) の残差ストリームSAEリリースの146個はホルム補正値閾値をクリアし、105個は大きな効果サイズ(|Cohen's d| > 0.8)に達した。
17,491, d=+2.93, Neuronpedia のラベル 'cryptographic key' は、プロンプトの転送対象が「キー」である場合を除き、本質的に静かであり、GPT-2 の小さな値が 93.3% の時間と他の7つのオブジェクトの 7.5% の時間で失敗する(正確な p = 8.79 x 10^-33 )。
これは、機械的クレームが通過すべき3つの制御に関連付ける。
i)45キープロンプトの全トークン位置にわたる残ストリームにおけるゼロ化機能17,491は、精度を回復しない(6.7%〜>44%)。
表象ベースライン:生の768次元残留ストリーム上のロジスティック回帰は、5倍のLOC AUC = 0.929に達し、上位100のSAE特徴(0.927)と一致する。
三 種子難度チェック:五つのランダムな種子において、キー・サブセットの故障率は75.0--93.3%(行動効果は本物)であるが、特徴17,491は5回のうち1回で最高|d|の特徴である。
したがって、方法論的な貢献は、監査パイプライン(チープ、モデルに依存しない、相関と呼ばれる表面)であり、それを通して見いだされる単一の特徴ではない。
私たちは、コード、300-promptコーパス、300x24,576アクティベーションマトリックス、アブレーションとベースラインスクリプト、そして数字をリリースします。
完全なパイプラインはラップトップ(Apple M3 Max、離散GPUなし)で動作する。
関連論文リスト
- From Correlation to Cause: A Five-Stage Methodology for Feature Analysis in Transformer Language Models [0.0]
変換言語モデルにおける因果的特徴分析のための5段階の手法を提案する。
Indirect Object Identification (IOI) タスクを実行するGPT-2のエンド・ツー・エンドを実証する。
論文 参考訳(メタデータ) (2026-05-21T13:25:16Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Bug or Feature$^2$: Weight Drift, Activation Sparsity and Spikes [53.726365933748134]
標準損失と正に偏りのある活性化関数の相互作用によって引き起こされる負の重みのドリフトを解析する。
79の構成にまたがるスパシティ・精度のトレードオフを特徴付けるとともに、$sim$70%のアクティベーション・スパシティよりも高い精度の崖を識別する。
論文 参考訳(メタデータ) (2026-05-17T21:29:20Z) - ContractBench: Can LLM Agents Preserve Observation Contracts? [9.057486468322933]
観察契約の遵守は、緊急かつ回帰的な能力であることを示す。
ContractBenchは、2つの障害モードを探索する33の二重軸タスクのベンチマークである。
i)評価モデルが80%,Claude-Opus-4.6が77.8%, (ii)Qwen 3.5で4B (0%) から9B (56.6%) の急激な家庭内能力崖が397B-A17Bで70.7%, (iii) GPT-5ファミリーでの非単調性スケーリングが消失した。
論文 参考訳(メタデータ) (2026-05-17T06:37:04Z) - Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning [0.0]
大規模な言語モデルがどのようにタスクのアイデンティティを数発のデモからエンコードしているかを理解することは、機械的解釈可能性において中心的なオープンな問題である。
以前の作業では、リニアプローブを使用してタスク表現をローカライズし、特定のレイヤで高い分類精度を報告していた。
正確さを求めることは因果的重要性を予測するのに完全に失敗する。
論文 参考訳(メタデータ) (2026-04-10T14:49:07Z) - Steerable but Not Decodable: Function Vectors Operate Beyond the Logit Lens [0.0]
機能(FV)ステアリングは、ロジットレンズが任意の層で正しい答えをデコードできない場合でも成功する。
FVステアリングは、各モデルのタスクごとにロジットレンズの精度を超える。
FVボキャブラリ投影は、FVが0.90以上のステアリング精度を達成し、いまだ不整合なトークン分布を投影していることを示している。
論文 参考訳(メタデータ) (2026-04-03T00:54:11Z) - Brief Is Better: Non-Monotonic Chain-of-Thought Budget Effects in Function-Calling Language Agents [0.25891009512378166]
思考の連鎖 (CoT) 推論は, エージェント性能を向上させることが広く想定されている。
機能呼び出しエージェントに対するCOT予算効果の系統的研究を行った。
我々の中心的な発見は、Qwen2.5-1.5B-Instruct: brief reasoning (32 tokens) における顕著な非単調パターンである。
論文 参考訳(メタデータ) (2026-04-02T15:25:13Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - SCOP: Scientific Control for Reliable Neural Network Pruning [127.20073865874636]
本稿では,科学的制御を設定することにより,信頼性の高いニューラルネットワークプルーニングアルゴリズムを提案する。
冗長フィルタは、異なる特徴の逆数過程において発見できる。
提案手法では,ResNet-101のパラメータ57.8%,FLOP60.2%を削減できる。
論文 参考訳(メタデータ) (2020-10-21T03:02:01Z) - HRank: Filter Pruning using High-Rank Feature Map [149.86903824840752]
我々は高階特徴写像(HRank)を探索する新しいフィルタ刈り法を提案する。
私たちのHRankは、単一のフィルタで生成された複数の特徴マップの平均ランクが常に同じであるという発見にインスピレーションを受けています。
HRankに基づいて,低ランク特徴写像を持つプーンフィルタに数学的に定式化する手法を開発した。
論文 参考訳(メタデータ) (2020-02-24T11:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。