論文の概要: nnterp: A Standardized Interface for Mechanistic Interpretability of Transformers
- arxiv url: http://arxiv.org/abs/2511.14465v1
- Date: Tue, 18 Nov 2025 13:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.124877
- Title: nnterp: A Standardized Interface for Mechanistic Interpretability of Transformers
- Title(参考訳): nnterp:トランスフォーマーの機械的解釈性のための標準化されたインタフェース
- Authors: Clément Dumas,
- Abstract要約: nnterpは、NNsightのトランスフォーマー分析のための軽量ラッパーである。
オリジナルのHuggingFace実装を保持しながら、トランスフォーマー分析のための統一インターフェースを提供する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability research requires reliable tools for analyzing transformer internals across diverse architectures. Current approaches face a fundamental tradeoff: custom implementations like TransformerLens ensure consistent interfaces but require coding a manual adaptation for each architecture, introducing numerical mismatch with the original models, while direct HuggingFace access through NNsight preserves exact behavior but lacks standardization across models. To bridge this gap, we develop nnterp, a lightweight wrapper around NNsight that provides a unified interface for transformer analysis while preserving original HuggingFace implementations. Through automatic module renaming and comprehensive validation testing, nnterp enables researchers to write intervention code once and deploy it across 50+ model variants spanning 16 architecture families. The library includes built-in implementations of common interpretability methods (logit lens, patchscope, activation steering) and provides direct access to attention probabilities for models that support it. By packaging validation tests with the library, researchers can verify compatibility with custom models locally. nnterp bridges the gap between correctness and usability in mechanistic interpretability tooling.
- Abstract(参考訳): 機械的解釈可能性の研究は、様々なアーキテクチャでトランスフォーマー内部を解析するための信頼できるツールを必要とする。
TransformerLensのようなカスタム実装は、一貫したインターフェースを保証するが、各アーキテクチャへの手動適応をコーディングする必要がある。
このギャップを埋めるために、NNsight を囲む軽量ラッパーであるnnterp を開発し、元の HuggingFace 実装を保存しながらトランスフォーマー解析のための統一インターフェースを提供する。
モジュールの自動リネームと包括的なバリデーションテストを通じて、nnterpは16のアーキテクチャファミリにまたがる50以上のモデルにまたがって、介入コードを一度書くことができる。
このライブラリには、共通の解釈可能性メソッド(ログレンズ、パッチスコープ、アクティベーションステアリング)の組み込み実装が含まれており、それをサポートするモデルに対するアテンション確率への直接アクセスを提供する。
ライブラリに検証テストをパッケージ化することで、研究者はカスタムモデルとの互換性をローカルで検証できる。
nnterpは機械的解釈可能性ツールの正確性とユーザビリティのギャップを埋める。
関連論文リスト
- CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs [13.488544043942495]
本研究の目的は、コード生成中に論理的妥当性を予測可能な内部デオード可能な信号が、モデル内のニューラルダイナミクスで符号化されているかどうかを検討することである。
複雑な残留流を分解することにより,音の推論と論理的失敗を区別する構造的シグネチャを同定することを目的とする。
Python、C++、Javaでの分析では、固有の正当性信号が多様な構文で堅牢であることが確認されている。
論文 参考訳(メタデータ) (2026-02-06T03:49:15Z) - SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks [0.0]
SALVEは機械的解釈可能性とモデル編集を橋渡しするフレームワークである。
私たちは、監督なしでスパースでモデルネイティブな機能ベースを学びます。
Grad-FAM(英語版)によりこれらの特徴を検証した。
論文 参考訳(メタデータ) (2025-12-17T20:06:03Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Generalize Your Face Forgery Detectors: An Insertable Adaptation Module Is All You Need [3.5424095074777533]
オンライン未ラベルテストデータのみを用いて、トレーニング済みオフザシェルフ検出器を適応できる挿入可能な適応モジュールを導入する。
具体的には、まず、改訂された特徴とプロトタイプから予測を生成する学習可能なクラスプロトタイプベース分類器を提案する。
また、予測精度をさらに向上し、自己学習中のノイズの多い擬似ラベルの影響を低減するため、最も近い特徴校正器を提案する。
論文 参考訳(メタデータ) (2024-12-30T08:48:04Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。
複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文 参考訳(メタデータ) (2021-02-11T11:22:20Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。