論文の概要: Mechanistic Interpretability in the Presence of Architectural Obfuscation
- arxiv url: http://arxiv.org/abs/2506.18053v1
- Date: Sun, 22 Jun 2025 14:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.721826
- Title: Mechanistic Interpretability in the Presence of Architectural Obfuscation
- Title(参考訳): 建築難読化における機械的解釈可能性
- Authors: Marcos Florencio, Thomas Barton,
- Abstract要約: アーキテクチャ難読化(Architectural obfuscation)は、プライバシ保存型大言語モデル(LLM)推論における重み付き暗号の軽量代用である。
我々は,代表的難読化マップを用いて,スクラッチから訓練したGPT-2小モデルを分析する。
その結果,難読化は注目ヘッド内のアクティベーションパターンを劇的に変化させるが,層幅の計算グラフは保存されることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Architectural obfuscation - e.g., permuting hidden-state tensors, linearly transforming embedding tables, or remapping tokens - has recently gained traction as a lightweight substitute for heavyweight cryptography in privacy-preserving large-language-model (LLM) inference. While recent work has shown that these techniques can be broken under dedicated reconstruction attacks, their impact on mechanistic interpretability has not been systematically studied. In particular, it remains unclear whether scrambling a network's internal representations truly thwarts efforts to understand how the model works, or simply relocates the same circuits to an unfamiliar coordinate system. We address this gap by analyzing a GPT-2-small model trained from scratch with a representative obfuscation map. Assuming the obfuscation map is private and the original basis is hidden (mirroring an honest-but-curious server), we apply logit-lens attribution, causal path-patching, and attention-head ablation to locate and manipulate known circuits. Our findings reveal that obfuscation dramatically alters activation patterns within attention heads yet preserves the layer-wise computational graph. This disconnect hampers reverse-engineering of user prompts: causal traces lose their alignment with baseline semantics, and token-level logit attributions become too noisy to reconstruct. At the same time, feed-forward and residual pathways remain functionally intact, suggesting that obfuscation degrades fine-grained interpretability without compromising top-level task performance. These results establish quantitative evidence that architectural obfuscation can simultaneously (i) retain global model behaviour and (ii) impede mechanistic analyses of user-specific content. By mapping where interpretability breaks down, our study provides guidance for future privacy defences and for robustness-aware interpretability tooling.
- Abstract(参考訳): アーキテクチャ難読化(Architectural obfuscation) – 例えば、隠れ状態テンソルの置換、埋め込みテーブルの線形変換、トークンの再マッピング – は、プライバシを保存する大言語モデル(LLM)推論において、ヘビー級暗号の軽量な代替手段として、最近注目を集めている。
近年の研究では、これらの技術は専用の再建攻撃によって破壊される可能性があることが示されているが、機械的解釈性への影響は体系的に研究されていない。
特に、ネットワークの内部表現をスクランブルすることは、モデルがどのように機能するかを理解するのに真の努力を妨げているのか、あるいは、同じ回路を不慣れな座標系に単純に移動させるのかは、まだ不明である。
代表的難読化マップを用いて、スクラッチから訓練したGPT-2小モデルを分析することにより、このギャップに対処する。
難読化マップがプライベートで、元のベースが隠されていると仮定すると、ロジットレンズ属性、因果経路パッチング、アテンションヘッドアブレーションを適用し、既知の回路の探索と操作を行う。
その結果,難読化は注目ヘッド内のアクティベーションパターンを劇的に変化させるが,層幅の計算グラフは保存されることがわかった。
因果トレースはベースラインセマンティクスとの整合を失い、トークンレベルのロジット属性は再構築するにはノイズが多すぎる。
同時に、フィードフォワードと残路は機能的にも機能しておらず、難読化はトップレベルのタスク性能を損なうことなく、きめ細かな解釈性を低下させる。
これらの結果から,建築難読化が同時に可能であるという定量的証拠が得られた。
(i)グローバルモデル行動を維持し、
(II)ユーザ固有のコンテンツの力学解析を阻害する。
解釈可能性の故障箇所をマッピングすることにより、今後のプライバシー保護と堅牢性を考慮した解釈可能性ツールのためのガイダンスを提供する。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z) - Backdoor Attacks on the DNN Interpretation System [16.587968446342995]
ディープニューラルネットワーク(DNN)の内部動作を理解するためには、解釈可能性が不可欠である
我々は,入射トリガのみの入力画像に対して,ネットワークが生成するサリエンシマップを変更するバックドアアタックを設計する。
非信頼なソースによって開発されたディープラーニングモデルをデプロイする場合、当社の攻撃は深刻なセキュリティ上の脅威となる。
論文 参考訳(メタデータ) (2020-11-21T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。