論文の概要: Signal in the Noise: Polysemantic Interference Transfers and Predicts Cross-Model Influence
- arxiv url: http://arxiv.org/abs/2505.11611v2
- Date: Mon, 29 Sep 2025 16:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.931482
- Title: Signal in the Noise: Polysemantic Interference Transfers and Predicts Cross-Model Influence
- Title(参考訳): ノイズの信号:ポリセマンティック干渉伝達とモデル間影響予測
- Authors: Bofan Gong, Shiyang Lai, James Evans, Dawn Song,
- Abstract要約: 多意味性は言語モデルに広く浸透しており、解釈とモデル行動制御の大きな課題である。
2つの小さなモデルの多意味的トポロジをマッピングし、意味的に無関係だがモデル内の干渉を示す特徴対を同定する。
我々は4つのloci(prompt, token, feature, neuron)に介入し、次のトーケン予測分布における変化を計測し、これらのモデルに体系的な脆弱性を露呈する多意味構造を明らかにする。
- 参考スコア(独自算出の注目度): 46.548276232795466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Polysemanticity is pervasive in language models and remains a major challenge for interpretation and model behavioral control. Leveraging sparse autoencoders (SAEs), we map the polysemantic topology of two small models (Pythia-70M and GPT-2-Small) to identify SAE feature pairs that are semantically unrelated yet exhibit interference within models. We intervene at four loci (prompt, token, feature, neuron) and measure induced shifts in the next-token prediction distribution, uncovering polysemantic structures that expose a systematic vulnerability in these models. Critically, interventions distilled from counterintuitive interference patterns shared by two small models transfer reliably to larger instruction-tuned models (Llama-3.1-8B/70B-Instruct and Gemma-2-9B-Instruct), yielding predictable behavioral shifts without access to model internals. These findings challenge the view that polysemanticity is purely stochastic, demonstrating instead that interference structures generalize across scale and family. Such generalization suggests a convergent, higher-order organization of internal representations, which is only weakly aligned with intuition and structured by latent regularities, offering new possibilities for both black-box control and theoretical insight into human and artificial cognition.
- Abstract(参考訳): 多意味性は言語モデルに広く浸透しており、解釈とモデル行動制御の大きな課題である。
スパースオートエンコーダ(SAE)を用いて,2つのモデル(Pythia-70M と GPT-2-Small)の多意味的トポロジをマッピングし,意味的に無関係でモデル内の干渉を示すSAE特徴対を同定する。
我々は4つのloci(prompt, token, feature, neuron)に介入し、次のトーケン予測分布における変化を計測し、これらのモデルに体系的な脆弱性を露呈する多意味構造を明らかにする。
重要なことに、2つの小さなモデルで共有される直感的干渉パターンから抽出された介入は、より大きな命令チューニングされたモデル(Llama-3.1-8B/70B-インストラクトとGemma-2-9B-インストラクト)に確実に移行し、モデル内部にアクセスすることなく予測可能な行動シフトをもたらす。
これらの知見は、多意味性は純粋に確率的であるという見解に挑戦し、代わりに、干渉構造がスケールと家族にわたって一般化することを証明した。
このような一般化は、内部表現の収束した高次の組織を示唆しており、直観と弱く一致し、潜在正規性によって構成され、ブラックボックス制御と人間と人工認知に関する理論的洞察の新しい可能性を提供する。
関連論文リスト
- Capturing Polysemanticity with PRISM: A Multi-Concept Feature Description Framework [7.729065709338261]
我々は、ニューラルネットワーク機能の本質的な複雑さを捉える新しいフレームワークであるPRISMを紹介する。
機能ごとに1つの記述を割り当てる以前のアプローチとは異なり、PRISMは多意味的特徴と単意味的特徴の両方に対してよりニュアンスな記述を提供する。
論文 参考訳(メタデータ) (2025-06-18T15:13:07Z) - Towards Interpretable Protein Structure Prediction with Sparse Autoencoders [0.0]
SAEのマトリオシカは、ネストした潜伏者のグループに独立して入力を再構築させ、階層的に組織化された特徴を学習する。
我々はESEをESMFoldのベースモデルであるESM2-3Bに拡張し、初めてタンパク質構造予測の機械論的解釈を可能にする。
本研究では,ESM2-3BでトレーニングしたSAEが,生物学的概念発見と接触地図予測の両方において,より小さなモデルでトレーニングしたSAEよりも優れていたことを示す。
論文 参考訳(メタデータ) (2025-03-11T17:57:29Z) - MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language [0.4631438140637248]
MAMMALは多タスク基盤モデルの作成に応用された汎用的手法であり、多様なモダリティにわたる大規模生物学的データセットから学習する。
11の下流タスクで評価され、9つのタスクでSOTA(the new state of the art)に到達し、2つのタスクでSOTAに匹敵する。
抗体-抗原およびナノボディ-抗原複合体上でのαfold 3結合予測能について検討し, 4点中3点においてMAMMALの分類性能は有意に向上した。
論文 参考訳(メタデータ) (2024-10-28T20:45:52Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - Sparse Autoencoders Find Highly Interpretable Features in Language
Models [0.0]
多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
論文 参考訳(メタデータ) (2023-09-15T17:56:55Z) - RobustMQ: Benchmarking Robustness of Quantized Models [54.15661421492865]
量子化は、限られたリソースを持つデバイスにディープニューラルネットワーク(DNN)をデプロイする上で不可欠なテクニックである。
我々は、ImageNet上の様々なノイズ(障害攻撃、自然破壊、系統的なノイズ)に対する量子化モデルのロバスト性について、徹底的に評価した。
我々の研究は、モデルとその実世界のシナリオにおける展開の堅牢な定量化を推し進めることに貢献している。
論文 参考訳(メタデータ) (2023-08-04T14:37:12Z) - S3M: Scalable Statistical Shape Modeling through Unsupervised
Correspondences [91.48841778012782]
本研究では,集団解剖学における局所的および大域的形状構造を同時に学習するための教師なし手法を提案する。
我々のパイプラインは、ベースライン法と比較して、SSMの教師なし対応推定を大幅に改善する。
我々の手法は、ノイズの多いニューラルネットワーク予測から学ぶのに十分堅牢であり、より大きな患者にSSMを拡張できる可能性がある。
論文 参考訳(メタデータ) (2023-04-15T09:39:52Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Polysemanticity and Capacity in Neural Networks [2.9260206957981167]
ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。
この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈を難しくする。
論文 参考訳(メタデータ) (2022-10-04T20:28:43Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - Semi-Structured Distributional Regression -- Extending Structured
Additive Models by Arbitrary Deep Neural Networks and Data Modalities [0.0]
本稿では、構造化回帰モデルとディープニューラルネットワークを統合ネットワークアーキテクチャに結合する一般的なフレームワークを提案する。
数値実験において,本フレームワークの有効性を実証し,ベンチマークや実世界の応用において,そのメリットを実証する。
論文 参考訳(メタデータ) (2020-02-13T21:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。