論文の概要: Interpretability Illusions with Sparse Autoencoders: Evaluating Robustness of Concept Representations
- arxiv url: http://arxiv.org/abs/2505.16004v1
- Date: Wed, 21 May 2025 20:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.903435
- Title: Interpretability Illusions with Sparse Autoencoders: Evaluating Robustness of Concept Representations
- Title(参考訳): スパースオートエンコーダによる解釈可能性イリュージョン:概念表現のロバスト性の評価
- Authors: Aaron J. Li, Suraj Srinivas, Usha Bhalla, Himabindu Lakkaraju,
- Abstract要約: 本研究では,SAE表現を操作するために対向的摂動が構築される現実的なシナリオを特徴とする評価フレームワークを開発する。
逆入力摂動は,ほとんどのシナリオにおいて,概念に基づく解釈を効果的に操作できることがわかった。
以上の結果から,SAEの概念表現は脆弱であり,モデル監視や監視に不適である可能性が示唆された。
- 参考スコア(独自算出の注目度): 23.993903128858832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are commonly used to interpret the internal activations of large language models (LLMs) by mapping them to human-interpretable concept representations. While existing evaluations of SAEs focus on metrics such as the reconstruction-sparsity tradeoff, human (auto-)interpretability, and feature disentanglement, they overlook a critical aspect: the robustness of concept representations to input perturbations. We argue that robustness must be a fundamental consideration for concept representations, reflecting the fidelity of concept labeling. To this end, we formulate robustness quantification as input-space optimization problems and develop a comprehensive evaluation framework featuring realistic scenarios in which adversarial perturbations are crafted to manipulate SAE representations. Empirically, we find that tiny adversarial input perturbations can effectively manipulate concept-based interpretations in most scenarios without notably affecting the outputs of the base LLMs themselves. Overall, our results suggest that SAE concept representations are fragile and may be ill-suited for applications in model monitoring and oversight.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、人間の解釈可能な概念表現にマッピングすることで、大きな言語モデル(LLM)の内部アクティベーションを解釈するために一般的に用いられる。
既存のSAEの評価では、再構成とスパーシティのトレードオフ、人間(自動)解釈可能性、特徴のゆがみといった指標に焦点が当てられているが、それらは重要な側面である、入力摂動に対する概念表現の堅牢性を見落としている。
我々は、ロバスト性は概念表現の基本的な考察であり、概念ラベリングの忠実さを反映したものでなければならないと論じている。
この目的のために、入力空間最適化問題としてロバストネス定量化を定式化し、SAE表現を操作するために対向摂動を発生させる現実的なシナリオを特徴とする総合的な評価フレームワークを開発する。
実験により,小さな逆入力摂動は,LLM自体の出力に影響を与えることなく,ほとんどのシナリオにおいて,概念に基づく解釈を効果的に操作できることがわかった。
以上の結果から,SAEの概念表現は脆弱であり,モデル監視や監視に不適である可能性が示唆された。
関連論文リスト
- Example-Based Concept Analysis Framework for Deep Weather Forecast Models [25.56878415414591]
本研究では,類似の推論プロセスに従う事例を対象モデルにおける対象インスタンスとして識別する,実例に基づく概念分析フレームワークを開発する。
本フレームワークは,気象メカニズムの曖昧さを解消するための概念割り当ての確率を含む,視覚的および概念的に類似した例をユーザに提供する。
論文 参考訳(メタデータ) (2025-04-01T14:22:41Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - Towards Robust and Reliable Concept Representations: Reliability-Enhanced Concept Embedding Model [22.865870813626316]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、人間の理解可能な概念を意思決定の中間体として予測することにより、解釈可能性を高めることを目的としている。
概念に関係のない特徴に対する感受性と、異なるサンプルの同じ概念に対する意味的一貫性の欠如である。
本稿では,Reliability-Enhanced Concept Embedding Model (RECEM) を提案する。Reliability-Enhanced Concept Embedding Model (RECEM) は2つの戦略を導入する。
論文 参考訳(メタデータ) (2025-02-03T09:29:39Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Self-supervised Interpretable Concept-based Models for Text Classification [9.340843984411137]
本稿では,自己教師型解釈可能な概念埋め込みモデル(ICEM)を提案する。
我々は,大規模言語モデルの一般化能力を活用し,概念ラベルを自己管理的に予測する。
ICEMは、完全に教師されたコンセプトベースモデルやエンドツーエンドのブラックボックスモデルと同じようなパフォーマンスを達成するために、自己管理的な方法でトレーニングすることができる。
論文 参考訳(メタデータ) (2024-06-20T14:04:53Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。
我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。
GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文 参考訳(メタデータ) (2022-05-31T08:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。