論文の概要: Localized Definitions and Distributed Reasoning: A Proof-of-Concept Mechanistic Interpretability Study via Activation Patching
- arxiv url: http://arxiv.org/abs/2504.02976v1
- Date: Thu, 03 Apr 2025 18:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:14.206924
- Title: Localized Definitions and Distributed Reasoning: A Proof-of-Concept Mechanistic Interpretability Study via Activation Patching
- Title(参考訳): 局所的定義と分散推論--アクティベーション・パッチングによる概念機械論的解釈可能性の研究
- Authors: Nooshin Bahador,
- Abstract要約: 本研究は, CLAP(Activation Patching)による因果層属性を用いたGPT-2モデルにおける知識表現の局所化について検討する。
CLAPは、正しい回答生成に責任を負う重要な神経層を特定する。
最終出力層が完全に復元された精度(100%回復)にパッチを当てると、定義的知識が局所化されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study investigates the localization of knowledge representation in fine-tuned GPT-2 models using Causal Layer Attribution via Activation Patching (CLAP), a method that identifies critical neural layers responsible for correct answer generation. The model was fine-tuned on 9,958 PubMed abstracts (epilepsy: 20,595 mentions, EEG: 11,674 mentions, seizure: 13,921 mentions) using two configurations with validation loss monitoring for early stopping. CLAP involved (1) caching clean (correct answer) and corrupted (incorrect answer) activations, (2) computing logit difference to quantify model preference, and (3) patching corrupted activations with clean ones to assess recovery. Results revealed three findings: First, patching the first feedforward layer recovered 56% of correct preference, demonstrating that associative knowledge is distributed across multiple layers. Second, patching the final output layer completely restored accuracy (100% recovery), indicating that definitional knowledge is localised. The stronger clean logit difference for definitional questions further supports this localized representation. Third, minimal recovery from convolutional layer patching (13.6%) suggests low-level features contribute marginally to high-level reasoning. Statistical analysis confirmed significant layer-specific effects (p<0.01). These findings demonstrate that factual knowledge is more localized and associative knowledge depends on distributed representations. We also showed that editing efficacy depends on task type. Our findings not only reconcile conflicting observations about localization in model editing but also emphasize on using task-adaptive techniques for reliable, interpretable updates.
- Abstract(参考訳): 本研究では, 正解生成に責任を負う重要な神経層を同定するCLAP (Causal Layer Attribution via Activation Patching) を用いて, 微調整GPT-2モデルにおける知識表現の局所化について検討した。
このモデルは、9,958のPubMed抽象化(エピレプシー:20,595の言及、EEG:11,674の言及、発作:13,921の言及)で、早期停止のための検証損失監視を備えた2つの設定を使用して微調整された。
CLAPは,(1)クリーン(正解)と不正(誤解)のアクティベーションをキャッシュし,(2)モデルの嗜好を定量化するためのロジット差を計算し,(3)クリーンなアクティベーションにパッチを当ててリカバリを評価した。
まず、最初のフィードフォワード層にパッチを当てると、正しい選好の56%が回復し、連想的知識が複数の層に分散していることを示した。
第2に、最終出力層を完全に復元した精度(100%回復)をパッチすることで、定義的知識が局所化されていることを示す。
定義問題に対するより強いクリーンなロジット差は、この局所化表現をさらに支持する。
第3に、畳み込み層のパッチング (13.6%) による最小限の回復は、低レベルの特徴が高レベルの推論にわずかに寄与していることを示唆している。
統計的に有意な層特異的効果(p<0.01。
これらの結果は,事実的知識がより局所化され,連想的知識が分散表現に依存することを示している。
また,編集効率はタスクタイプに依存することを示した。
本研究は, モデル編集における局所化に関する矛盾する観察を再現するだけでなく, 信頼性, 解釈可能な更新にタスク適応技術を用いることにも重点を置いている。
関連論文リスト
- Prediction Accuracy & Reliability: Classification and Object Localization under Distribution Shift [1.433758865948252]
本研究では,自然分布変化と気象増悪が検出品質および信頼性評価に与える影響について検討した。
公開されている自動運転データセットから、新しいデータセットがキュレートされた。
分散シフト中のCNNの粒度解析により、タスク性能と信頼性推定の両方に異なるタイプのシフトの影響を定量化することができる。
論文 参考訳(メタデータ) (2024-09-05T14:06:56Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Produce Once, Utilize Twice for Anomaly Detection [6.501323305130114]
我々は、再構成ネットワークにおける識別情報電位を再利用することにより、精度と効率を両立させるPOUTAを導出する。
POUTAは、特別な設計をせずに、最先端の数発の異常検出方法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2023-12-20T10:49:49Z) - Benchmarking Pathology Feature Extractors for Whole Slide Image Classification [2.173830337391778]
弱教師付き全スライド画像分類は、計算病理学における重要な課題である。
特徴抽出器の総合的なベンチマークを行い、3つの重要な質問に答える。
我々は経験的に観察し、潜伏空間を解析することにより、染色の正規化や画像の増大は性能を低下させない。
提案手法は, 下流性能を比較するための新しい評価指標を開発し, 下流性能の指標として, 特徴抽出器の選択が最も重要な要因であることを示す。
論文 参考訳(メタデータ) (2023-11-20T13:58:26Z) - How Does Pruning Impact Long-Tailed Multi-Label Medical Image
Classifiers? [49.35105290167996]
プルーニングは、ディープニューラルネットワークを圧縮し、全体的なパフォーマンスに大きな影響を及ぼすことなく、メモリ使用量と推論時間を短縮する強力なテクニックとして登場した。
この研究は、プルーニングがモデル行動に与える影響を理解するための第一歩である。
論文 参考訳(メタデータ) (2023-08-17T20:40:30Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Understanding and Diagnosing Vulnerability under Adversarial Attacks [62.661498155101654]
ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが知られている。
本稿では,潜在変数の分類に使用される特徴を説明するために,新しい解釈可能性手法であるInterpretGANを提案する。
また、各層がもたらす脆弱性を定量化する最初の診断方法も設計する。
論文 参考訳(メタデータ) (2020-07-17T01:56:28Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z) - ASLFeat: Learning Local Features of Accurate Shape and Localization [42.70030492742363]
ASLFeatを3つの軽量かつ効果的に修正し、上記の問題を緩和する。
まず、変形可能な畳み込みネットワークを用いて局所変換を密に推定、適用する。
第2に,空間分解能と低レベル細部を復元する特徴階層を利用して,正確なキーポイント位置推定を行う。
論文 参考訳(メタデータ) (2020-03-23T04:03:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。