論文の概要: HyperDAS: Towards Automating Mechanistic Interpretability with Hypernetworks
- arxiv url: http://arxiv.org/abs/2503.10894v1
- Date: Thu, 13 Mar 2025 21:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:21.755228
- Title: HyperDAS: Towards Automating Mechanistic Interpretability with Hypernetworks
- Title(参考訳): HyperDAS: Hypernetworksによるメカニスティック解釈の自動化を目指す
- Authors: Jiuding Sun, Jing Huang, Sidharth Baskaran, Karel D'Oosterlinck, Christopher Potts, Michael Sklar, Atticus Geiger,
- Abstract要約: 本稿では, コンバータをベースとしたハイパーネットワークアーキテクチャHyperDASを提案する。
Llama3-8Bでの実験では、HyperDASはRAVELベンチマークで最先端のパフォーマンスを達成し、隠蔽状態における概念の密接化を実現している。
- 参考スコア(独自算出の注目度): 20.053840819815786
- License:
- Abstract: Mechanistic interpretability has made great strides in identifying neural network features (e.g., directions in hidden activation space) that mediate concepts(e.g., the birth year of a person) and enable predictable manipulation. Distributed alignment search (DAS) leverages supervision from counterfactual data to learn concept features within hidden states, but DAS assumes we can afford to conduct a brute force search over potential feature locations. To address this, we present HyperDAS, a transformer-based hypernetwork architecture that (1) automatically locates the token-positions of the residual stream that a concept is realized in and (2) constructs features of those residual stream vectors for the concept. In experiments with Llama3-8B, HyperDAS achieves state-of-the-art performance on the RAVEL benchmark for disentangling concepts in hidden states. In addition, we review the design decisions we made to mitigate the concern that HyperDAS (like all powerful interpretabilty methods) might inject new information into the target model rather than faithfully interpreting it.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、概念(例えば、人の生年)を仲介し、予測可能な操作を可能にするニューラルネットワークの特徴(例えば、隠れたアクティベーション空間の方向)を特定することに大きく貢献している。
分散アライメントサーチ(DAS)は、反ファクトデータからの監視を活用して、隠れた状態における概念的特徴を学習するが、DASは潜在的な特徴位置について残酷な力による探索を行うことができると仮定する。
これを解決するために,1) 概念が実現した残ストリームのトークン配置を自動的に特定し,(2) 概念のための残ストリームベクトルの特徴を構築する,トランスフォーマーベースのハイパーネットワークアーキテクチャであるHyperDASを提案する。
Llama3-8Bでの実験では、HyperDASはRAVELベンチマークで最先端のパフォーマンスを達成し、隠蔽状態における概念の密接化を実現している。
さらに、HyperDAS(すべての強力なインタープリタビリティメソッドのように)が、それを忠実に解釈するのではなく、ターゲットモデルに新たな情報を注入するのではないかという懸念を軽減するために、私たちが行った設計決定についてレビューする。
関連論文リスト
- Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - This Probably Looks Exactly Like That: An Invertible Prototypical Network [8.957872207471311]
プロトタイプニューラルネットワークは、概念アノテーションなしで人間に理解可能な機械学習を実現するための、エキサイティングな方法だ。
原型的説明に対する間接的解釈関数への依存は、プロトタイプの情報的力に厳しい制限を課すことが判明した。
本稿では,ガウス混合モデルを用いて正規化フローを構成することにより,ProtoFlowと呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T21:51:02Z) - Interpretable Prognostics with Concept Bottleneck Models [5.939858158928473]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、概念的説明に基づいて本質的に解釈可能なニューラルネットワークアーキテクチャである。
CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入できるようにする。
ケーススタディでは,CBMの性能がブラックボックスモデルと同等か優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-27T18:15:40Z) - On the Road to Clarity: Exploring Explainable AI for World Models in a Driver Assistance System [3.13366804259509]
我々は畳み込み変分オートエンコーダ(VAE)のための透明なバックボーンモデルを構築した。
本稿では,予測ネットワークの内部力学と特徴関連性に関する説明と評価手法を提案する。
本稿では,都市交通状況における歩行者の認識を予測したVAE-LSTM世界モデルの解析により,提案手法を実証する。
論文 参考訳(メタデータ) (2024-04-26T11:57:17Z) - Gaussian Mixture Models for Affordance Learning using Bayesian Networks [50.18477618198277]
Affordancesはアクション、オブジェクト、エフェクト間の関係の基本的な記述である。
本稿では,世界を探究し,その感覚経験から自律的にこれらの余裕を学習するエンボディエージェントの問題にアプローチする。
論文 参考訳(メタデータ) (2024-02-08T22:05:45Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - FACADE: A Framework for Adversarial Circuit Anomaly Detection and
Evaluation [9.025997629442896]
FACADEは、ディープニューラルネットワークにおける教師なしの機械的異常検出のために設計されている。
我々のアプローチは、モデルの堅牢性を改善し、スケーラブルなモデル監視を強化し、現実のデプロイメント環境で有望なアプリケーションを実証することを目指している。
論文 参考訳(メタデータ) (2023-07-20T04:00:37Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - BiDet: An Efficient Binarized Object Detector [96.19708396510894]
本稿では,効率的な物体検出のためのバイナライズニューラルネットワークのBiDetを提案する。
我々のBiDetは、冗長除去による物体検出にバイナリニューラルネットワークの表現能力を完全に活用している。
我々の手法は、最先端のバイナリニューラルネットワークを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-03-09T08:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。