論文の概要: Probing the Vulnerability of Large Language Models to Polysemantic Interventions
- arxiv url: http://arxiv.org/abs/2505.11611v1
- Date: Fri, 16 May 2025 18:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.735573
- Title: Probing the Vulnerability of Large Language Models to Polysemantic Interventions
- Title(参考訳): 大規模言語モデルの多意味的介入に対する脆弱性の探索
- Authors: Bofan Gong, Shiyang Lai, Dawn Song,
- Abstract要約: 2つの小モデル(Pythia-70MとGPT-2-Small)の多意味構造について検討する。
解析の結果,両モデルに共通する一貫した多意味トポロジーが明らかになった。
興味深いことに、この構造を利用して、2つの大きなブラックボックス命令調整モデルに効果的な介入を組み込むことができる。
- 参考スコア(独自算出の注目度): 49.64902130083662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Polysemanticity -- where individual neurons encode multiple unrelated features -- is a well-known characteristic of large neural networks and remains a central challenge in the interpretability of language models. At the same time, its implications for model safety are also poorly understood. Leveraging recent advances in sparse autoencoders, we investigate the polysemantic structure of two small models (Pythia-70M and GPT-2-Small) and evaluate their vulnerability to targeted, covert interventions at the prompt, feature, token, and neuron levels. Our analysis reveals a consistent polysemantic topology shared across both models. Strikingly, we demonstrate that this structure can be exploited to mount effective interventions on two larger, black-box instruction-tuned models (LLaMA3.1-8B-Instruct and Gemma-2-9B-Instruct). These findings suggest not only the generalizability of the interventions but also point to a stable and transferable polysemantic structure that could potentially persist across architectures and training regimes.
- Abstract(参考訳): 個々のニューロンが複数の無関係な特徴をエンコードする多意味性(Polysemanticity)は、大きなニューラルネットワークの特徴として知られており、言語モデルの解釈可能性において依然として中心的な課題である。
同時に、モデル安全性に対するその意味も理解されていない。
スパースオートエンコーダの最近の進歩を生かして,2つの小モデル(Pythia-70MとGPT-2-Small)の多意味構造を解析し,プロンプト,特徴,トークン,ニューロンレベルの標的,隠蔽的介入に対する脆弱性を評価する。
解析の結果,両モデルに共通する一貫した多意味トポロジーが明らかになった。
興味深いことに、この構造を利用して、2つの大きなブラックボックス命令チューニングモデル(LLaMA3.1-8B-InstructとGemma-2-9B-Instruct)に効果的な介入を組み込むことができる。
これらの知見は、介入の一般化可能性だけでなく、アーキテクチャや訓練体制全体にわたって持続する可能性のある、安定かつ伝達可能な多意味構造も示唆している。
関連論文リスト
- D-Models and E-Models: Diversity-Stability Trade-offs in the Sampling Behavior of Large Language Models [91.21455683212224]
大規模言語モデル(LLMs)では、次の情報の関連性確率は、次の製品の関連性確率に関連付けられる。
しかし、きめ細かいサンプリング確率がタスク要求に忠実に適合するかどうかは未解決の問題だ。
P_tokenが大きなステップ・ツー・ステップの変動を示し、P_taskとの整合性が低いDモデルと、P_tokenがより安定してP_taskに整合するEモデルである。
論文 参考訳(メタデータ) (2026-01-25T14:59:09Z) - Explaining Machine Learning Predictive Models through Conditional Expectation Methods [0.0]
MUCEは、特徴的相互作用から予測変化を捉えるために設計された局所的説明可能性のモデルに依存しない手法である。
安定性と不確実性の2つの定量的指標は、局所的な振る舞いを要約し、モデルの信頼性を評価する。
その結果、MUCEは複雑な局所モデル挙動を効果的に捉え、安定性と不確実性指標は予測信頼性に有意義な洞察を与えることが示された。
論文 参考訳(メタデータ) (2026-01-12T08:34:36Z) - Understanding Overparametrization in Survival Models through Interpolation [14.444096460952961]
機械学習の最近の進歩は、より複雑なパターンであるtextitdouble-descent を明らかにし、テスト損失は閾値付近でピークに達した後、モデル容量が増加し続けるにつれて再び減少する。
本研究では,DeepSurv,PC-Hazard,Nnet-Survival,N-MTLRの4つの生存モデルにおける過度パラメータ化について検討した。
論文 参考訳(メタデータ) (2025-12-13T21:23:02Z) - Concept-SAE: Active Causal Probing of Visual Model Behavior [10.346577706023139]
Concept-SAEは、概念トークンを意味的に基礎づけるフレームワークである。
まず、我々の二重スーパービジョンアプローチが、著しく忠実で空間的に局在したトークンを生み出すことを定量的に示す。
この検証された忠実さは,(1)内部概念と直接介入による予測の因果関係を探索し,(2)特定の層に敵対的脆弱性を体系的に局在させることにより,モデルの障害モードを探索する,という2つの重要な応用を可能にする。
論文 参考訳(メタデータ) (2025-09-26T07:51:03Z) - From Patterns to Predictions: A Shapelet-Based Framework for Directional Forecasting in Noisy Financial Markets [8.168261768703621]
金融市場の方向性予測には正確性と解釈可能性の両方が必要である。
教師なしのパターン抽出と解釈可能な予測を統合する2段階のフレームワークを提案する。
我々のアプローチは、予測結果を導くパターン構造を明らかにすることによって、透明性のある意思決定を可能にします。
論文 参考訳(メタデータ) (2025-09-18T15:05:27Z) - Persona Features Control Emergent Misalignment [9.67070289452428]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。
内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。
また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文 参考訳(メタデータ) (2025-06-24T17:38:21Z) - Capturing Polysemanticity with PRISM: A Multi-Concept Feature Description Framework [7.729065709338261]
我々は、ニューラルネットワーク機能の本質的な複雑さを捉える新しいフレームワークであるPRISMを紹介する。
機能ごとに1つの記述を割り当てる以前のアプローチとは異なり、PRISMは多意味的特徴と単意味的特徴の両方に対してよりニュアンスな記述を提供する。
論文 参考訳(メタデータ) (2025-06-18T15:13:07Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Towards Interpretable Protein Structure Prediction with Sparse Autoencoders [0.0]
SAEのマトリオシカは、ネストした潜伏者のグループに独立して入力を再構築させ、階層的に組織化された特徴を学習する。
我々はESEをESMFoldのベースモデルであるESM2-3Bに拡張し、初めてタンパク質構造予測の機械論的解釈を可能にする。
本研究では,ESM2-3BでトレーニングしたSAEが,生物学的概念発見と接触地図予測の両方において,より小さなモデルでトレーニングしたSAEよりも優れていたことを示す。
論文 参考訳(メタデータ) (2025-03-11T17:57:29Z) - MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language [0.4631438140637248]
MAMMALは多タスク基盤モデルの作成に応用された汎用的手法であり、多様なモダリティにわたる大規模生物学的データセットから学習する。
11の下流タスクで評価され、9つのタスクでSOTA(the new state of the art)に到達し、2つのタスクでSOTAに匹敵する。
抗体-抗原およびナノボディ-抗原複合体上でのαfold 3結合予測能について検討し, 4点中3点においてMAMMALの分類性能は有意に向上した。
論文 参考訳(メタデータ) (2024-10-28T20:45:52Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - Sparse Autoencoders Find Highly Interpretable Features in Language
Models [0.0]
多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
論文 参考訳(メタデータ) (2023-09-15T17:56:55Z) - RobustMQ: Benchmarking Robustness of Quantized Models [54.15661421492865]
量子化は、限られたリソースを持つデバイスにディープニューラルネットワーク(DNN)をデプロイする上で不可欠なテクニックである。
我々は、ImageNet上の様々なノイズ(障害攻撃、自然破壊、系統的なノイズ)に対する量子化モデルのロバスト性について、徹底的に評価した。
我々の研究は、モデルとその実世界のシナリオにおける展開の堅牢な定量化を推し進めることに貢献している。
論文 参考訳(メタデータ) (2023-08-04T14:37:12Z) - S3M: Scalable Statistical Shape Modeling through Unsupervised
Correspondences [91.48841778012782]
本研究では,集団解剖学における局所的および大域的形状構造を同時に学習するための教師なし手法を提案する。
我々のパイプラインは、ベースライン法と比較して、SSMの教師なし対応推定を大幅に改善する。
我々の手法は、ノイズの多いニューラルネットワーク予測から学ぶのに十分堅牢であり、より大きな患者にSSMを拡張できる可能性がある。
論文 参考訳(メタデータ) (2023-04-15T09:39:52Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Polysemanticity and Capacity in Neural Networks [2.9260206957981167]
ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。
この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈を難しくする。
論文 参考訳(メタデータ) (2022-10-04T20:28:43Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z) - Semi-Structured Distributional Regression -- Extending Structured
Additive Models by Arbitrary Deep Neural Networks and Data Modalities [0.0]
本稿では、構造化回帰モデルとディープニューラルネットワークを統合ネットワークアーキテクチャに結合する一般的なフレームワークを提案する。
数値実験において,本フレームワークの有効性を実証し,ベンチマークや実世界の応用において,そのメリットを実証する。
論文 参考訳(メタデータ) (2020-02-13T21:01:26Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。