論文の概要: HyperDAS: Towards Automating Mechanistic Interpretability with Hypernetworks
- arxiv url: http://arxiv.org/abs/2503.10894v3
- Date: Fri, 25 Apr 2025 09:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 14:24:32.926722
- Title: HyperDAS: Towards Automating Mechanistic Interpretability with Hypernetworks
- Title(参考訳): HyperDAS: Hypernetworksによるメカニスティック解釈の自動化を目指す
- Authors: Jiuding Sun, Jing Huang, Sidharth Baskaran, Karel D'Oosterlinck, Christopher Potts, Michael Sklar, Atticus Geiger,
- Abstract要約: 本稿では, コンバータをベースとしたハイパーネットワークアーキテクチャHyperDASを提案する。
Llama3-8Bでの実験では、HyperDASはRAVELベンチマークで最先端のパフォーマンスを達成し、隠蔽状態における概念の密接化を実現している。
- 参考スコア(独自算出の注目度): 20.053840819815786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability has made great strides in identifying neural network features (e.g., directions in hidden activation space) that mediate concepts(e.g., the birth year of a person) and enable predictable manipulation. Distributed alignment search (DAS) leverages supervision from counterfactual data to learn concept features within hidden states, but DAS assumes we can afford to conduct a brute force search over potential feature locations. To address this, we present HyperDAS, a transformer-based hypernetwork architecture that (1) automatically locates the token-positions of the residual stream that a concept is realized in and (2) constructs features of those residual stream vectors for the concept. In experiments with Llama3-8B, HyperDAS achieves state-of-the-art performance on the RAVEL benchmark for disentangling concepts in hidden states. In addition, we review the design decisions we made to mitigate the concern that HyperDAS (like all powerful interpretabilty methods) might inject new information into the target model rather than faithfully interpreting it.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、概念(例えば、人の生年)を仲介し、予測可能な操作を可能にするニューラルネットワークの特徴(例えば、隠れたアクティベーション空間の方向)を特定することに大きく貢献している。
分散アライメントサーチ(DAS)は、反ファクトデータからの監視を活用して、隠れた状態における概念的特徴を学習するが、DASは潜在的な特徴位置について残酷な力による探索を行うことができると仮定する。
これを解決するために,1) 概念が実現した残ストリームのトークン配置を自動的に特定し,(2) 概念のための残ストリームベクトルの特徴を構築する,トランスフォーマーベースのハイパーネットワークアーキテクチャであるHyperDASを提案する。
Llama3-8Bでの実験では、HyperDASはRAVELベンチマークで最先端のパフォーマンスを達成し、隠蔽状態における概念の密接化を実現している。
さらに、HyperDAS(すべての強力なインタープリタビリティメソッドのように)が、それを忠実に解釈するのではなく、ターゲットモデルに新たな情報を注入するのではないかという懸念を軽減するために、私たちが行った設計決定についてレビューする。
関連論文リスト
- Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - Escaping Plato's Cave: Robust Conceptual Reasoning through Interpretable 3D Neural Object Volumes [65.63534641857476]
画像分類における解釈可能性とロバスト性を統一する新しい方向であるCAVE(Concept Aware Volumes for Explanations)を紹介する。
本研究では,既存の3次元認識型分類器をボリューム表現から抽出した概念で拡張することで,本質的に解釈可能かつ堅牢な分類器を設計する。
解釈可能性のための定量的メトリクスの配列において、説明可能なAI文献全体にわたる異なる概念ベースのアプローチと比較し、CAVEが画像間で一貫して使用されるよく構築された概念を発見し、優れたロバスト性を実現していることを示す。
論文 参考訳(メタデータ) (2025-03-17T17:55:15Z) - Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - This Probably Looks Exactly Like That: An Invertible Prototypical Network [8.957872207471311]
プロトタイプニューラルネットワークは、概念アノテーションなしで人間に理解可能な機械学習を実現するための、エキサイティングな方法だ。
原型的説明に対する間接的解釈関数への依存は、プロトタイプの情報的力に厳しい制限を課すことが判明した。
本稿では,ガウス混合モデルを用いて正規化フローを構成することにより,ProtoFlowと呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T21:51:02Z) - Interpretable Prognostics with Concept Bottleneck Models [5.939858158928473]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、概念的説明に基づいて本質的に解釈可能なニューラルネットワークアーキテクチャである。
CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入できるようにする。
ケーススタディでは,CBMの性能がブラックボックスモデルと同等か優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-27T18:15:40Z) - On the Road to Clarity: Exploring Explainable AI for World Models in a Driver Assistance System [3.13366804259509]
我々は畳み込み変分オートエンコーダ(VAE)のための透明なバックボーンモデルを構築した。
本稿では,予測ネットワークの内部力学と特徴関連性に関する説明と評価手法を提案する。
本稿では,都市交通状況における歩行者の認識を予測したVAE-LSTM世界モデルの解析により,提案手法を実証する。
論文 参考訳(メタデータ) (2024-04-26T11:57:17Z) - Gaussian Mixture Models for Affordance Learning using Bayesian Networks [50.18477618198277]
Affordancesはアクション、オブジェクト、エフェクト間の関係の基本的な記述である。
本稿では,世界を探究し,その感覚経験から自律的にこれらの余裕を学習するエンボディエージェントの問題にアプローチする。
論文 参考訳(メタデータ) (2024-02-08T22:05:45Z) - Local Concept Embeddings for Analysis of Concept Distributions in DNN Feature Spaces [1.0923877073891446]
我々はディープニューラルネットワーク(DNN)のための新しい概念分析フレームワークを提案する。
完全なデータセット上で単一のグローバルな概念ベクトルを最適化する代わりに、個々のサンプルに対してローカルな概念埋め込み(LoCE)ベクトルを生成する。
文脈感度にもかかわらず,提案手法のセグメンテーション性能はグローバルベースラインと競合する。
論文 参考訳(メタデータ) (2023-11-24T12:22:00Z) - FACADE: A Framework for Adversarial Circuit Anomaly Detection and
Evaluation [9.025997629442896]
FACADEは、ディープニューラルネットワークにおける教師なしの機械的異常検出のために設計されている。
我々のアプローチは、モデルの堅牢性を改善し、スケーラブルなモデル監視を強化し、現実のデプロイメント環境で有望なアプリケーションを実証することを目指している。
論文 参考訳(メタデータ) (2023-07-20T04:00:37Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - BiDet: An Efficient Binarized Object Detector [96.19708396510894]
本稿では,効率的な物体検出のためのバイナライズニューラルネットワークのBiDetを提案する。
我々のBiDetは、冗長除去による物体検出にバイナリニューラルネットワークの表現能力を完全に活用している。
我々の手法は、最先端のバイナリニューラルネットワークを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-03-09T08:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。