論文の概要: Capturing Polysemanticity with PRISM: A Multi-Concept Feature Description Framework
- arxiv url: http://arxiv.org/abs/2506.15538v1
- Date: Wed, 18 Jun 2025 15:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.706762
- Title: Capturing Polysemanticity with PRISM: A Multi-Concept Feature Description Framework
- Title(参考訳): PRISMでポリセマンティクスをキャプチャする: マルチコンセプトな特徴記述フレームワーク
- Authors: Laura Kopf, Nils Feldhus, Kirill Bykov, Philine Lou Bommer, Anna Hedström, Marina M. -C. Höhne, Oliver Eberle,
- Abstract要約: 我々は、ニューラルネットワーク機能の本質的な複雑さを捉える新しいフレームワークであるPRISMを紹介する。
機能ごとに1つの記述を割り当てる以前のアプローチとは異なり、PRISMは多意味的特徴と単意味的特徴の両方に対してよりニュアンスな記述を提供する。
- 参考スコア(独自算出の注目度): 7.729065709338261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated interpretability research aims to identify concepts encoded in neural network features to enhance human understanding of model behavior. Current feature description methods face two critical challenges: limited robustness and the flawed assumption that each neuron encodes only a single concept (monosemanticity), despite growing evidence that neurons are often polysemantic. This assumption restricts the expressiveness of feature descriptions and limits their ability to capture the full range of behaviors encoded in model internals. To address this, we introduce Polysemantic FeatuRe Identification and Scoring Method (PRISM), a novel framework that captures the inherent complexity of neural network features. Unlike prior approaches that assign a single description per feature, PRISM provides more nuanced descriptions for both polysemantic and monosemantic features. We apply PRISM to language models and, through extensive benchmarking against existing methods, demonstrate that our approach produces more accurate and faithful feature descriptions, improving both overall description quality (via a description score) and the ability to capture distinct concepts when polysemanticity is present (via a polysemanticity score).
- Abstract(参考訳): 自動解釈可能性の研究は、ニューラルネットワークの特徴に符号化された概念を特定し、モデル行動の人間の理解を強化することを目的としている。
現在の特徴記述法は2つの重要な課題に直面している: 限られた頑健さと、各ニューロンが単一の概念(単調性)のみを符号化するという欠点のある仮定である。
この仮定は、特徴記述の表現性を制限し、モデル内部に符号化されたすべての振る舞いをキャプチャする能力を制限する。
これを解決するために、ニューラルネットワーク機能の本質的な複雑さを捉える新しいフレームワークであるPolysemantic FeatuRe Identification and Scoring Method (PRISM)を紹介する。
機能ごとに1つの記述を割り当てる以前のアプローチとは異なり、PRISMは多意味的特徴と単意味的特徴の両方に対してよりニュアンスな記述を提供する。
我々はPRISMを言語モデルに適用し、既存の手法に対する広範なベンチマークを通じて、我々のアプローチがより正確で忠実な特徴記述を生み出し、(記述スコアを介して)全体的な記述品質と(多意味性スコアを介して)多意味性が存在するときに異なる概念をキャプチャする能力の両方を改善することを実証した。
関連論文リスト
- Probing the Vulnerability of Large Language Models to Polysemantic Interventions [49.64902130083662]
2つの小モデル(Pythia-70MとGPT-2-Small)の多意味構造について検討する。
解析の結果,両モデルに共通する一貫した多意味トポロジーが明らかになった。
興味深いことに、この構造を利用して、2つの大きなブラックボックス命令調整モデルに効果的な介入を組み込むことができる。
論文 参考訳(メタデータ) (2025-05-16T18:20:42Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - MulCPred: Learning Multi-modal Concepts for Explainable Pedestrian Action Prediction [57.483718822429346]
MulCPredは、トレーニングサンプルで表されるマルチモーダルな概念に基づいて、その予測を説明する。
MulCPredは複数のデータセットとタスクで評価される。
論文 参考訳(メタデータ) (2024-09-14T14:15:28Z) - PURE: Turning Polysemantic Neurons Into Pure Features by Identifying Relevant Circuits [12.17671779091913]
本稿では、複数の単意味「仮想」ニューロンにポリセマンティックニューロンを分解することで、あらゆるディープニューラルネットワークのポリセマンティック性を遠ざける方法を提案する。
私たちは、ImageNetでトレーニングされたResNetモデルの多意味ユニットを、どのように見つけ、切り離すことができるかを示します。
論文 参考訳(メタデータ) (2024-04-09T16:54:19Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Sparse Autoencoders Find Highly Interpretable Features in Language
Models [0.0]
多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
論文 参考訳(メタデータ) (2023-09-15T17:56:55Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。