論文の概要: DePass: Unified Feature Attributing by Simple Decomposed Forward Pass
- arxiv url: http://arxiv.org/abs/2510.18462v2
- Date: Fri, 24 Oct 2025 06:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.223558
- Title: DePass: Unified Feature Attributing by Simple Decomposed Forward Pass
- Title(参考訳): DePass: 単純な分解フォワードパスによる統一された機能属性
- Authors: Xiangyu Hong, Che Jiang, Kai Tian, Biqing Qi, Youbang Sun, Ning Ding, Bowen Zhou,
- Abstract要約: DePassは単一のフォワードパスに基づいた機能属性のための統一されたフレームワークである。
補助訓練を必要とせず、忠実できめ細かな属性を達成できる。
DePassが、解釈可能性における幅広いアプリケーションの基礎となるツールになることを願っています。
- 参考スコア(独自算出の注目度): 21.46119275455105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attributing the behavior of Transformer models to internal computations is a central challenge in mechanistic interpretability. We introduce DePass, a unified framework for feature attribution based on a single decomposed forward pass. DePass decomposes hidden states into customized additive components, then propagates them with attention scores and MLP's activations fixed. It achieves faithful, fine-grained attribution without requiring auxiliary training. We validate DePass across token-level, model component-level, and subspace-level attribution tasks, demonstrating its effectiveness and fidelity. Our experiments highlight its potential to attribute information flow between arbitrary components of a Transformer model. We hope DePass serves as a foundational tool for broader applications in interpretability.
- Abstract(参考訳): トランスフォーマーモデルの挙動を内部計算に寄与させることは、機械論的解釈可能性において重要な課題である。
DePassは、単一の分解されたフォワードパスに基づいて、機能属性を統一したフレームワークである。
DePassは隠された状態をカスタマイズされた付加的なコンポーネントに分解し、アテンションスコアとMLPのアクティベーションを固定して伝播する。
補助訓練を必要とせず、忠実できめ細かな属性を達成できる。
トークンレベル,モデルコンポーネントレベル,サブスペースレベルの属性タスクにまたがってDePassを検証する。
実験では,Transformerモデルの任意のコンポーネント間の情報フローを属性化する可能性を強調した。
DePassが、解釈可能性における幅広いアプリケーションの基礎となるツールになることを願っています。
関連論文リスト
- Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - PASS: Protected Attribute Suppression System for Mitigating Bias in Face
Recognition [55.858374644761525]
顔認識ネットワークは、識別分類のために訓練されている間、機密属性に関する情報を符号化する。
既存のバイアス緩和アプローチでは、エンドツーエンドのトレーニングが必要であり、高い精度を達成できない。
PASS(Protected Attribute Suppression System)と呼ばれる記述子に基づく逆バイアス除去手法を提案する。
パスは、以前に訓練されたハイパフォーマンスネットワークから得られた記述子を使って、アイデンティティを分類し、機密属性のエンコーディングを同時に削減することができる。
論文 参考訳(メタデータ) (2021-08-09T00:39:22Z) - AttributeNet: Attribute Enhanced Vehicle Re-Identification [70.89289512099242]
本稿では,属性特徴と属性特徴を共同で抽出するAttributeNet(ANet)を提案する。
ReID-helpful属性特徴を蒸留し、一般的なReID特徴に加えることで、識別能力を高めることができる。
3つの挑戦的なデータセットに対して,我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2021-02-07T19:51:02Z) - Influence Patterns for Explaining Information Flow in BERT [23.06248927839962]
本稿では,変換器モデルによる影響パターン,経路の集合の抽象化を紹介する。
BERTにおける情報フローのかなりの部分は、アテンションヘッドの代わりにスキップ接続を通していることがわかった。
論文 参考訳(メタデータ) (2020-11-02T04:28:16Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z) - Interpretable Probabilistic Password Strength Meters via Deep Learning [13.97315111128149]
確率的パスワードメーターは、本質的にパスワード強度とパスワード構造との間に生じる潜伏関係を記述する能力を持っていることを示す。
既存の構造とは異なり、我々の方法はいかなる人間の偏見も無く、さらに重要なことに、そのフィードバックは確率論的解釈を持つ。
論文 参考訳(メタデータ) (2020-04-15T16:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。