論文の概要: Even Heads Fix Odd Errors: Mechanistic Discovery and Surgical Repair in Transformer Attention
- arxiv url: http://arxiv.org/abs/2508.19414v1
- Date: Tue, 26 Aug 2025 20:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.419251
- Title: Even Heads Fix Odd Errors: Mechanistic Discovery and Surgical Repair in Transformer Attention
- Title(参考訳): 頭でもオッドエラーを治す:変圧器留置時の機械的発見と外科的修復
- Authors: Gustavo Sandoval,
- Abstract要約: Llama-3.1-8B-Instructにおける形式依存推論失敗の力学ケーススタディを提案する。
このモデルは、チャットやQ&Aフォーマットでは「9.11」が「9.8」よりも大きいと誤って判断するが、単純な形式では正しく答える。
25%の注意頭を用いて完全修復を行い,60%のパターン置換閾値を同定した。
- 参考スコア(独自算出の注目度): 1.58969890720707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a mechanistic case study of a format-dependent reasoning failure in Llama-3.1-8B-Instruct, where the model incorrectly judges "9.11" as larger than "9.8" in chat or Q&A formats, but answers correctly in simple format. Through systematic intervention, we discover transformers implement even/odd attention head specialization: even indexed heads handle numerical comparison, while odd heads serve incompatible functions. The bug requires exactly 8 even heads at Layer 10 for perfect repair. Any combination of 8+ even heads succeeds, while 7 or fewer completely fails, revealing sharp computational thresholds with perfect redundancy among the 16 even heads. SAE analysis reveals the mechanism: format representations separate (10% feature overlap at Layer 7), then re-entangle with different weightings (80% feature overlap at Layer 10), with specific features showing 1.5x amplification in failing formats. We achieve perfect repair using only 25% of attention heads and identify a 60% pattern replacement threshold, demonstrating that apparent full-module requirements hide sophisticated substructure with implications for interpretability and efficiency. All of our code is available at https://github.com/gussand/surgeon.
- Abstract(参考訳): Llama-3.1-8B-Instructでは,チャットやQ&Aフォーマットの「9.8」よりも「9.11」を誤って判断するが,単純な形式では正解する。
インデクシングヘッドでさえ数値比較を処理し、奇数ヘッドは不整合関数として機能する。
このバグは完璧に修復するために、Layer 10で正確に8つの頭部を必要とする。
8つ以上のヘッドの組み合わせは成功し、7つ以下は完全に失敗し、16つ以上のヘッドの間に完全な冗長性を持つシャープな計算しきい値が明らかになる。
SAE分析は、 フォーマット表現を分離(レイヤ7では10%のオーバーラップ)し、異なる重み付け(レイヤ10では80%のオーバーラップ)で再絡み合う。
注意点の25%のみを用いて完全な修復を行い、60%のパターン置換閾値を同定し、全モジュール要求が解釈可能性や効率性に影響を及ぼすような高度なサブ構造を隠蔽することを示した。
コードはすべてhttps://github.com/gussand/surgeon.comから入手可能です。
関連論文リスト
- Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning [54.970571745690634]
本研究は,数値精度が大規模言語モデルの推論に与える影響について,最初の系統的研究を行った。
我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインであるLayerCastを開発した。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Mechanistic Interpretability of Fine-Tuned Vision Transformers on Distorted Images: Decoding Attention Head Behavior for Transparent and Trustworthy AI [0.0]
機械的解釈可能性により、大きなAIモデルの安全性、信頼性、堅牢性が向上する。
本研究では、歪みした2次元分光画像に微調整された視覚変換器(ViT)の個々の注意ヘッドについて検討した。
論文 参考訳(メタデータ) (2025-03-24T15:11:24Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Automated Classification of Model Errors on ImageNet [7.455546102930913]
モデル選択がエラー分布にどのように影響するかを研究するための自動エラー分類フレームワークを提案する。
我々は、900以上のモデルのエラー分布を網羅的に評価するために、我々のフレームワークを使用します。
特に、重大エラーの一部は、モデルの性能を過小評価しているにもかかわらず、重要なパフォーマンス指標であることを示すトップ1の精度で大幅に低下する。
論文 参考訳(メタデータ) (2023-11-13T20:41:39Z) - Dual Compensation Residual Networks for Class Imbalanced Learning [98.35401757647749]
そこで本研究では,尾と頭の両方に適合する2次元補償残差ネットワークを提案する。
オーバーフィッティングを引き起こす重要な要因は、トレーニングとテールクラスのテストデータの間に深刻な特徴ドリフトがあることである。
また,不適合問題を軽減するためにResidual Balanced Multi-Proxies分類器を提案する。
論文 参考訳(メタデータ) (2023-08-25T04:06:30Z) - A Unified Model for Multi-class Anomaly Detection [33.534990722449066]
UniADは、統一されたフレームワークで複数のクラスに対して異常検出を行う。
MVTec-ADおよびCIFAR-10データセットを用いて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2022-06-08T06:05:09Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - A Mixture of $h-1$ Heads is Better than $h$ Heads [63.12336930345417]
我々は注意的専門家モデル(MAE)の混合を提案する。
機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。
分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
論文 参考訳(メタデータ) (2020-05-13T19:05:58Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。