論文の概要: Is This the Subspace You Are Looking for? An Interpretability Illusion
for Subspace Activation Patching
- arxiv url: http://arxiv.org/abs/2311.17030v1
- Date: Tue, 28 Nov 2023 18:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:16:09.921094
- Title: Is This the Subspace You Are Looking for? An Interpretability Illusion
for Subspace Activation Patching
- Title(参考訳): これがあなたが探しているサブスペースか?
サブスペース活性化パッチングの解釈可能性
- Authors: Aleksandar Makelov, Georg Lange, Neel Nanda
- Abstract要約: 機械的解釈可能性(Mechanistic Interpretability)は、特定の、解釈可能な特徴の観点からモデル行動を理解することを目的としている。
最近の研究は、モデル行動を操作し、その背後にある特徴を与えられた部分空間とみなす方法として、サブスペース介入を探求している。
これらの2つの目的が多様であることを示し、潜在的に説明可能性という幻想的な感覚に繋がる可能性があることを実証する。
- 参考スコア(独自算出の注目度): 47.05588106164043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability aims to understand model behaviors in terms of
specific, interpretable features, often hypothesized to manifest as
low-dimensional subspaces of activations. Specifically, recent studies have
explored subspace interventions (such as activation patching) as a way to
simultaneously manipulate model behavior and attribute the features behind it
to given subspaces.
In this work, we demonstrate that these two aims diverge, potentially leading
to an illusory sense of interpretability. Counterintuitively, even if a
subspace intervention makes the model's output behave as if the value of a
feature was changed, this effect may be achieved by activating a dormant
parallel pathway leveraging another subspace that is causally disconnected from
model outputs. We demonstrate this phenomenon in a distilled mathematical
example, in two real-world domains (the indirect object identification task and
factual recall), and present evidence for its prevalence in practice. In the
context of factual recall, we further show a link to rank-1 fact editing,
providing a mechanistic explanation for previous work observing an
inconsistency between fact editing performance and fact localization.
However, this does not imply that activation patching of subspaces is
intrinsically unfit for interpretability. To contextualize our findings, we
also show what a success case looks like in a task (indirect object
identification) where prior manual circuit analysis informs an understanding of
the location of a feature. We explore the additional evidence needed to argue
that a patched subspace is faithful.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic interpretability)は、特定の解釈可能な特徴の観点からモデル行動を理解することを目的としており、しばしば活性化の低次元部分空間として表されると仮定される。
特に、最近の研究では、モデルの振る舞いを同時に操作し、その背後にある機能を与えられた部分空間に属性付ける方法として、サブスペース介入(アクティベーションパッチングなど)が研究されている。
本研究は,この2つが発散することを示し,解釈可能性の顕在化に繋がる可能性を示唆する。
逆に、仮にサブスペース介入がモデルの出力を機能の値が変更されたかのように振る舞うとしても、この効果はモデルの出力から因果的に切り離された別のサブスペースを活用する休眠平行経路を活性化することによって達成される。
本研究では,この現象を2つの実世界の領域(間接的物体識別タスクと事実的リコール)で蒸留した数学的例で示し,実際にその頻度を示す。
事実リコールの文脈では、さらにランク1事実編集へのリンクを示し、事実編集性能と事実ローカライゼーションの矛盾を観察する以前の作業の機械的な説明を提供する。
しかし、これはサブスペースのアクティベーションパッチが本質的に解釈可能性に適さないという意味ではない。
また,先行的な手作業による回路解析が特徴の場所の理解を知らせるタスク(間接的対象識別)において,成功事例がどのように見えるかを示す。
我々はパッチされた部分空間が忠実であると主張するのに必要な追加の証拠を調べる。
関連論文リスト
- GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models [27.618704505738425]
コントラスト視覚言語モデル(VLM)は、様々な下流タスクに適用可能であることで人気を集めている。
ゼロショットオブジェクト認識のようないくつかのタスクで成功しているにもかかわらず、属性認識のような他のタスクでは驚くほど貧弱である。
これまでの研究では、これらの課題は、モダリティギャップ、共有表現空間における画像とテキストの分離、属性などの他の要因に対するオブジェクトに対するバイアスなどによるものだった。
論文 参考訳(メタデータ) (2024-04-11T17:58:06Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Emergent Causality and the Foundation of Consciousness [0.0]
我々は$do$演算子がない場合、介入は変数で表現できると主張している。
狭義では、それは何を知るべきかを記述し、意識の側面の機械的な説明である。
論文 参考訳(メタデータ) (2023-02-07T01:41:23Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - Disentangling Action Sequences: Discovering Correlated Samples [6.179793031975444]
我々は、データ自体が要因ではなく非絡み合いにおいて重要な役割を担い、非絡み合い表現は潜在変数とアクションシーケンスとを一致させることを示した。
本稿では,アクションシーケンスをステップバイステップで切り離すための新しいフレームワークFVAEを提案する。
dSprites と 3D Chairs の実験結果から, FVAE は絡み合いの安定性を向上させることが示された。
論文 参考訳(メタデータ) (2020-10-17T07:37:50Z) - A Novel Perspective to Zero-shot Learning: Towards an Alignment of
Manifold Structures via Semantic Feature Expansion [17.48923061278128]
ゼロショット学習の一般的な実践は、視覚的特徴空間と意味的特徴空間の間の投影をラベル付きクラス例で訓練することである。
このようなパラダイムの下では、既存のほとんどのメソッドは容易にドメインシフトの問題に悩まされ、ゼロショット認識の性能が低下する。
本稿では, 意味的特徴拡張による多様体構造のアライメントを考慮した AMS-SFE という新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-04-30T14:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。