論文の概要: Probing the Vulnerability of Large Language Models to Polysemantic Interventions
- arxiv url: http://arxiv.org/abs/2505.11611v1
- Date: Fri, 16 May 2025 18:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.735573
- Title: Probing the Vulnerability of Large Language Models to Polysemantic Interventions
- Title(参考訳): 大規模言語モデルの多意味的介入に対する脆弱性の探索
- Authors: Bofan Gong, Shiyang Lai, Dawn Song,
- Abstract要約: 2つの小モデル(Pythia-70MとGPT-2-Small)の多意味構造について検討する。
解析の結果,両モデルに共通する一貫した多意味トポロジーが明らかになった。
興味深いことに、この構造を利用して、2つの大きなブラックボックス命令調整モデルに効果的な介入を組み込むことができる。
- 参考スコア(独自算出の注目度): 49.64902130083662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Polysemanticity -- where individual neurons encode multiple unrelated features -- is a well-known characteristic of large neural networks and remains a central challenge in the interpretability of language models. At the same time, its implications for model safety are also poorly understood. Leveraging recent advances in sparse autoencoders, we investigate the polysemantic structure of two small models (Pythia-70M and GPT-2-Small) and evaluate their vulnerability to targeted, covert interventions at the prompt, feature, token, and neuron levels. Our analysis reveals a consistent polysemantic topology shared across both models. Strikingly, we demonstrate that this structure can be exploited to mount effective interventions on two larger, black-box instruction-tuned models (LLaMA3.1-8B-Instruct and Gemma-2-9B-Instruct). These findings suggest not only the generalizability of the interventions but also point to a stable and transferable polysemantic structure that could potentially persist across architectures and training regimes.
- Abstract(参考訳): 個々のニューロンが複数の無関係な特徴をエンコードする多意味性(Polysemanticity)は、大きなニューラルネットワークの特徴として知られており、言語モデルの解釈可能性において依然として中心的な課題である。
同時に、モデル安全性に対するその意味も理解されていない。
スパースオートエンコーダの最近の進歩を生かして,2つの小モデル(Pythia-70MとGPT-2-Small)の多意味構造を解析し,プロンプト,特徴,トークン,ニューロンレベルの標的,隠蔽的介入に対する脆弱性を評価する。
解析の結果,両モデルに共通する一貫した多意味トポロジーが明らかになった。
興味深いことに、この構造を利用して、2つの大きなブラックボックス命令チューニングモデル(LLaMA3.1-8B-InstructとGemma-2-9B-Instruct)に効果的な介入を組み込むことができる。
これらの知見は、介入の一般化可能性だけでなく、アーキテクチャや訓練体制全体にわたって持続する可能性のある、安定かつ伝達可能な多意味構造も示唆している。
関連論文リスト
- Towards Interpretable Protein Structure Prediction with Sparse Autoencoders [0.0]
SAEのマトリオシカは、ネストした潜伏者のグループに独立して入力を再構築させ、階層的に組織化された特徴を学習する。
我々はESEをESMFoldのベースモデルであるESM2-3Bに拡張し、初めてタンパク質構造予測の機械論的解釈を可能にする。
本研究では,ESM2-3BでトレーニングしたSAEが,生物学的概念発見と接触地図予測の両方において,より小さなモデルでトレーニングしたSAEよりも優れていたことを示す。
論文 参考訳(メタデータ) (2025-03-11T17:57:29Z) - MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language [0.4631438140637248]
MAMMALは多タスク基盤モデルの作成に応用された汎用的手法であり、多様なモダリティにわたる大規模生物学的データセットから学習する。
11の下流タスクで評価され、9つのタスクでSOTA(the new state of the art)に到達し、2つのタスクでSOTAに匹敵する。
抗体-抗原およびナノボディ-抗原複合体上でのαfold 3結合予測能について検討し, 4点中3点においてMAMMALの分類性能は有意に向上した。
論文 参考訳(メタデータ) (2024-10-28T20:45:52Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - RobustMQ: Benchmarking Robustness of Quantized Models [54.15661421492865]
量子化は、限られたリソースを持つデバイスにディープニューラルネットワーク(DNN)をデプロイする上で不可欠なテクニックである。
我々は、ImageNet上の様々なノイズ(障害攻撃、自然破壊、系統的なノイズ)に対する量子化モデルのロバスト性について、徹底的に評価した。
我々の研究は、モデルとその実世界のシナリオにおける展開の堅牢な定量化を推し進めることに貢献している。
論文 参考訳(メタデータ) (2023-08-04T14:37:12Z) - S3M: Scalable Statistical Shape Modeling through Unsupervised
Correspondences [91.48841778012782]
本研究では,集団解剖学における局所的および大域的形状構造を同時に学習するための教師なし手法を提案する。
我々のパイプラインは、ベースライン法と比較して、SSMの教師なし対応推定を大幅に改善する。
我々の手法は、ノイズの多いニューラルネットワーク予測から学ぶのに十分堅牢であり、より大きな患者にSSMを拡張できる可能性がある。
論文 参考訳(メタデータ) (2023-04-15T09:39:52Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Polysemanticity and Capacity in Neural Networks [2.9260206957981167]
ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。
この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈を難しくする。
論文 参考訳(メタデータ) (2022-10-04T20:28:43Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - Semi-Structured Distributional Regression -- Extending Structured
Additive Models by Arbitrary Deep Neural Networks and Data Modalities [0.0]
本稿では、構造化回帰モデルとディープニューラルネットワークを統合ネットワークアーキテクチャに結合する一般的なフレームワークを提案する。
数値実験において,本フレームワークの有効性を実証し,ベンチマークや実世界の応用において,そのメリットを実証する。
論文 参考訳(メタデータ) (2020-02-13T21:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。