論文の概要: nnterp: A Standardized Interface for Mechanistic Interpretability of Transformers
- arxiv url: http://arxiv.org/abs/2511.14465v1
- Date: Tue, 18 Nov 2025 13:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.124877
- Title: nnterp: A Standardized Interface for Mechanistic Interpretability of Transformers
- Title(参考訳): nnterp:トランスフォーマーの機械的解釈性のための標準化されたインタフェース
- Authors: Clément Dumas,
- Abstract要約: nnterpは、NNsightのトランスフォーマー分析のための軽量ラッパーである。
オリジナルのHuggingFace実装を保持しながら、トランスフォーマー分析のための統一インターフェースを提供する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability research requires reliable tools for analyzing transformer internals across diverse architectures. Current approaches face a fundamental tradeoff: custom implementations like TransformerLens ensure consistent interfaces but require coding a manual adaptation for each architecture, introducing numerical mismatch with the original models, while direct HuggingFace access through NNsight preserves exact behavior but lacks standardization across models. To bridge this gap, we develop nnterp, a lightweight wrapper around NNsight that provides a unified interface for transformer analysis while preserving original HuggingFace implementations. Through automatic module renaming and comprehensive validation testing, nnterp enables researchers to write intervention code once and deploy it across 50+ model variants spanning 16 architecture families. The library includes built-in implementations of common interpretability methods (logit lens, patchscope, activation steering) and provides direct access to attention probabilities for models that support it. By packaging validation tests with the library, researchers can verify compatibility with custom models locally. nnterp bridges the gap between correctness and usability in mechanistic interpretability tooling.
- Abstract(参考訳): 機械的解釈可能性の研究は、様々なアーキテクチャでトランスフォーマー内部を解析するための信頼できるツールを必要とする。
TransformerLensのようなカスタム実装は、一貫したインターフェースを保証するが、各アーキテクチャへの手動適応をコーディングする必要がある。
このギャップを埋めるために、NNsight を囲む軽量ラッパーであるnnterp を開発し、元の HuggingFace 実装を保存しながらトランスフォーマー解析のための統一インターフェースを提供する。
モジュールの自動リネームと包括的なバリデーションテストを通じて、nnterpは16のアーキテクチャファミリにまたがる50以上のモデルにまたがって、介入コードを一度書くことができる。
このライブラリには、共通の解釈可能性メソッド(ログレンズ、パッチスコープ、アクティベーションステアリング)の組み込み実装が含まれており、それをサポートするモデルに対するアテンション確率への直接アクセスを提供する。
ライブラリに検証テストをパッケージ化することで、研究者はカスタムモデルとの互換性をローカルで検証できる。
nnterpは機械的解釈可能性ツールの正確性とユーザビリティのギャップを埋める。
関連論文リスト
- Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Generalize Your Face Forgery Detectors: An Insertable Adaptation Module Is All You Need [3.5424095074777533]
オンライン未ラベルテストデータのみを用いて、トレーニング済みオフザシェルフ検出器を適応できる挿入可能な適応モジュールを導入する。
具体的には、まず、改訂された特徴とプロトタイプから予測を生成する学習可能なクラスプロトタイプベース分類器を提案する。
また、予測精度をさらに向上し、自己学習中のノイズの多い擬似ラベルの影響を低減するため、最も近い特徴校正器を提案する。
論文 参考訳(メタデータ) (2024-12-30T08:48:04Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。
複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文 参考訳(メタデータ) (2021-02-11T11:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。