論文の概要: From Correlation to Cause: A Five-Stage Methodology for Feature Analysis in Transformer Language Models
- arxiv url: http://arxiv.org/abs/2605.22462v1
- Date: Thu, 21 May 2026 13:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.271646
- Title: From Correlation to Cause: A Five-Stage Methodology for Feature Analysis in Transformer Language Models
- Title(参考訳): 因果関係から原因へ:変圧器言語モデルの特徴解析のための5段階手法
- Authors: Caleb Munigety,
- Abstract要約: 変換言語モデルにおける因果的特徴分析のための5段階の手法を提案する。
Indirect Object Identification (IOI) タスクを実行するGPT-2のエンド・ツー・エンドを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a five-stage methodology for causal feature analysis in transformer language models (probe design, feature extraction, causal validation, robustness testing, and deployment integration) and demonstrate it end-to-end on GPT-2 small performing the Indirect Object Identification (IOI) task. Activation patching recovers the canonical IOI circuit (layer-9 head 9 alone gives recovery +1.02). A sparse autoencoder recovers per-name selective features with effect sizes of 30 to 50 activation units. Causal validation finds these features specifically but only partially causal: ablating fifteen of them leaves the model accurate on 98% of prompts. Two NLA-inspired evaluations strengthen this picture: the fifteen selective features explain only 31% of activation variance versus the SAE's 99.7%, and selectivity ratio anticorrelates with causal force (r = -0.56). Robustness testing under three distribution shifts finds that the circuit transfers cleanly but feature ablation effects degrade substantially, exposing a gap between detection robustness and causal robustness. A cost-based deployment evaluation (assumed $50/FN, $0.42/FP, 2% error rate) finds an optimal monitor configuration yielding $8.96 per 1000 queries against a $1000 baseline, a 99.1% saving. Optimal composition strategy varies with cost ratio and base rate. The conjunction of stages produces findings no single stage would.
- Abstract(参考訳): 本稿では,変換言語モデルにおける因果的特徴分析のための5段階の手法を提案する。
アクティベーションパッチは、標準IOI回路を回復する(レイヤ9ヘッド9だけでリカバリ+1.02)。
スパースオートエンコーダは、30から50のアクティベーションユニットのエフェクトサイズで名前ごとの選択的な特徴を回復する。
因果検証(Causal validation)は、これらの特徴を特に発見するが、部分的には因果関係である。
NLAにインスパイアされた2つの評価は、SAEの99.7%に対して活性化分散の31%しか説明されず、選択比は因果力と反相関する(r = -0.56)。
3つの分布シフトの下でのロバストネス試験では、回路がきれいに伝達されるが、アブレーション効果は著しく低下し、検出ロバストネスと因果ロバストネスのギャップが露呈する。
コストベースのデプロイメント評価(50/FN、0.42/FP、2%エラー率)では、1000クエリあたりの最適なモニタ構成が、1,000ベースラインに対して8.96ドル、99.1%の節約になる。
最適構成戦略は、コスト比とベースレートによって異なる。
ステージの結合は、どのステージも発見できない。
関連論文リスト
- Reading Task Failure Off the Activations: A Sparse-Feature Audit of GPT-2 Small on Indirect Object Identification [0.0]
我々は, GPT-2小火器のスパースオートコーダ(SAE)機能について, 失敗した試験と成功した試験との違いを報告した。
300プロンプトでは、GPT-2小径の精度は79.7%に達し、Bloom (2024)の層8残流SAEリリースの24,576個の特徴のうち146個はホルム補正値の閾値をクリアしている。
17,491, d=+2.93, Neuronpedia label 'cryptographic key' は、プロンプトの転送されたオブジェクトが「キー」である場合を除いて、本質的に静かである。
論文 参考訳(メタデータ) (2026-05-21T16:55:27Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals [0.0]
DASEは、ベンチマークをまたいで一般化するコミット型ルーティングパーティションを生成する。
インジェクション帯域ではなく、適応的な停止が正確さを駆動する。
インジェクションベースの手法は、逆Uの精度-vs-推論軌道を示す。
論文 参考訳(メタデータ) (2026-05-05T19:24:10Z) - One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - Evaluating Small Language Models for Front-Door Routing: A Harmonized Benchmark and Synthetic-Traffic Experiment [0.05586191108738562]
小型言語モデル(SLM)は、サブ秒、ゼロマージナルコスト、セルフホストタスクの分類に十分な推論能力を持つ。
Study 1はPhi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを同一のAzure T4ハードウェア、サービススタック、量子化、固定60ケースコーパスで同期したオフラインベンチマークである。
研究2は、合成トラフィック下で事前登録された4本腕ランダム化実験であり、有効サンプルサイズは腕あたり60ケースである。
論文 参考訳(メタデータ) (2026-03-26T15:57:46Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文 参考訳(メタデータ) (2025-04-07T14:21:11Z) - Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。
LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。
また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文 参考訳(メタデータ) (2025-04-01T06:58:15Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。