論文の概要: BlockCert: Certified Blockwise Extraction of Transformer Mechanisms
- arxiv url: http://arxiv.org/abs/2511.17645v1
- Date: Thu, 20 Nov 2025 06:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.324595
- Title: BlockCert: Certified Blockwise Extraction of Transformer Mechanisms
- Title(参考訳): BlockCert: 変圧器機構のブロックワイズ抽出
- Authors: Sandro Andric,
- Abstract要約: 本稿では,トランス機構のブロックワイズ抽出のためのフレームワークであるBlockCertを紹介する。
我々は、これらの局所的な保証をグローバルな偏差境界まで引き上げる単純なリプシッツに基づく合成定理をLean 4で定式化します。
以上の結果から,明示的な証明を用いたブロックワイズ抽出は,実際のトランスフォーマー言語モデルで実現可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mechanistic interpretability aspires to reverse-engineer neural networks into explicit algorithms, while model editing seeks to modify specific behaviours without retraining. Both areas are typically evaluated with informal evidence and ad-hoc experiments, with few explicit guarantees about how far an extracted or edited model can drift from the original on relevant inputs. We introduce BlockCert, a framework for certified blockwise extraction of transformer mechanisms, and outline how a lightweight extension can support certified local edits. Given a pre-trained transformer and a prompt distribution, BlockCert extracts structured surrogate implementations for residual blocks together with machine-checkable certificates that bound approximation error, record coverage metrics, and hash the underlying artifacts. We formalize a simple Lipschitz-based composition theorem in Lean 4 that lifts these local guarantees to a global deviation bound. Empirically, we apply the framework to GPT-2 small, TinyLlama-1.1B-Chat, and Llama-3.2-3B. Across these models we obtain high per-block coverage and small residual errors on the evaluated prompts, and in the TinyLlama setting we show that a fully stitched model matches the baseline perplexity within approximately 6e-5 on stress prompts. Our results suggest that blockwise extraction with explicit certificates is feasible for real transformer language models and offers a practical bridge between mechanistic interpretability and formal reasoning about model behaviour.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークを明示的なアルゴリズムにリバースエンジニアリングすることを目的としている。
どちらの領域も、通常、非公式な証拠やアドホックな実験で評価され、抽出されたモデルや編集されたモデルが、関連する入力に対して元のモデルからどれだけ遠くに漂うかという明確な保証はほとんどない。
本稿では,変圧器機構のブロックワイズ抽出のためのフレームワークであるBlockCertを紹介する。
事前トレーニングされたトランスフォーマーと迅速な配布が与えられたBlockCertは、残余ブロックの構造化サロゲート実装と、近似エラー、カバレッジメトリクスの記録、基礎となるアーティファクトのハッシュを含むマシンチェック可能な証明書を抽出する。
我々は、これらの局所的な保証をグローバルな偏差境界まで引き上げる単純なリプシッツに基づく合成定理をLean 4で定式化します。
実証的に、このフレームワークをGPT-2 small、TinyLlama-1.1B-Chat、Llama-3.2-3Bに適用する。
これらのモデル全体にわたって、評価されたプロンプトに対して高いブロック単位のカバレッジと小さな残差が得られ、TinyLlama設定では、ストレスプロンプトに対して、ほぼ6e-5の範囲で、完全に縫合されたモデルがベースラインのパープレキシティと一致することを示す。
以上の結果から,明示的な証明を用いたブロックワイズ抽出は,実際のトランスフォーマー言語モデルで実現可能であることが示唆された。
関連論文リスト
- Binary Autoencoder for Mechanistic Interpretability of Large Language Models [8.725176890854065]
隠れアクティベーションのミニバッチに最小エントロピーを強制する新しいバイナリオートエンコーダを提案する。
効率的なエントロピー計算のために、ステップ関数を介して隠れたアクティベーションを1ビットに識別する。
我々は、大規模言語モデルの推論力学を経験的に評価し、活用する。
論文 参考訳(メタデータ) (2025-09-25T10:48:48Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense [5.150608040339816]
本稿では,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成する新しいソリューションであるPADLを紹介する。
提案手法は,StarGANv2,BlendGAN,DiffAE,StableDiffusion,StableDiffusionXLなど,さまざまなアーキテクチャ設計の未確認モデルに一般化する。
論文 参考訳(メタデータ) (2024-09-26T15:16:32Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。