論文の概要: Superposition as Lossy Compression: Measure with Sparse Autoencoders and Connect to Adversarial Vulnerability
- arxiv url: http://arxiv.org/abs/2512.13568v1
- Date: Mon, 15 Dec 2025 17:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.779688
- Title: Superposition as Lossy Compression: Measure with Sparse Autoencoders and Connect to Adversarial Vulnerability
- Title(参考訳): 損失圧縮としての重ね合わせ:スパースオートエンコーダによる測定と対向脆弱性への接続
- Authors: Leonard Bereska, Zoe Tzifa-Kratira, Reza Samavi, Efstratios Gavves,
- Abstract要約: 本稿では,神経表現の有効自由度を測定する情報理論フレームワークを提案する。
我々はシャノンエントロピーをスパースオートエンコーダアクティベーションに適用し、干渉のない符号化に必要な最小限のニューロンとして有効な特徴の数を計算した。
提案手法は, 玩具模型における地中真実と強く相関し, アルゴリズム作業における極小重ね合わせを検出し, ドロップアウト下での系統的縮小を明らかにする。
- 参考スコア(独自算出の注目度): 23.64717985754014
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural networks achieve remarkable performance through superposition: encoding multiple features as overlapping directions in activation space rather than dedicating individual neurons to each feature. This challenges interpretability, yet we lack principled methods to measure superposition. We present an information-theoretic framework measuring a neural representation's effective degrees of freedom. We apply Shannon entropy to sparse autoencoder activations to compute the number of effective features as the minimum neurons needed for interference-free encoding. Equivalently, this measures how many "virtual neurons" the network simulates through superposition. When networks encode more effective features than actual neurons, they must accept interference as the price of compression. Our metric strongly correlates with ground truth in toy models, detects minimal superposition in algorithmic tasks, and reveals systematic reduction under dropout. Layer-wise patterns mirror intrinsic dimensionality studies on Pythia-70M. The metric also captures developmental dynamics, detecting sharp feature consolidation during grokking. Surprisingly, adversarial training can increase effective features while improving robustness, contradicting the hypothesis that superposition causes vulnerability. Instead, the effect depends on task complexity and network capacity: simple tasks with ample capacity allow feature expansion (abundance regime), while complex tasks or limited capacity force reduction (scarcity regime). By defining superposition as lossy compression, this work enables principled measurement of how neural networks organize information under computational constraints, connecting superposition to adversarial robustness.
- Abstract(参考訳): 複数の特徴を各特徴に個々のニューロンを割り当てるのではなく、活性化空間内の重なり合う方向として符号化する。
これは解釈可能性に挑戦するが、重ね合わせを測る原理的な方法が欠如している。
本稿では,神経表現の有効自由度を測定する情報理論フレームワークを提案する。
我々はシャノンエントロピーをスパースオートエンコーダアクティベーションに適用し、干渉のない符号化に必要な最小限のニューロンとして有効な特徴の数を計算した。
同様に、これはネットワークが重ね合わせによってシミュレートされる「仮想ニューロン」の数を測定する。
ネットワークが実際のニューロンよりも効果的な特徴を符号化する場合は、圧縮の価格として干渉を受け入れる必要がある。
提案手法は, 玩具模型における地中真実と強く相関し, アルゴリズム作業における極小重ね合わせを検出し, ドロップアウト下での系統的縮小を明らかにする。
層状パターンはPythia-70Mの固有次元性を反映する。
この計量は発達力学も捉え、グルーキング中に鋭い特徴の凝縮を検出する。
驚くべきことに、敵対的な訓練は、強靭性を改善しながら効果的な特徴を高めることができ、重ね合わせが脆弱性を引き起こすという仮説に矛盾する。
その代わりに、その効果はタスクの複雑さとネットワークの容量に依存する: 十分なキャパシティを持つ単純なタスクは機能拡張(アバンダンス・レジーム)を可能にし、一方複雑なタスクや限られたキャパシティ・フォース・リダクション(スカシティ・レジーム)が可能である。
重ね合わせを損失圧縮として定義することにより、ニューラルネットワークが計算制約の下で情報を整理する方法の原理的な測定を可能にし、重ね合わせを逆の強靭性に接続する。
関連論文リスト
- A spiking photonic neural network of 40.000 neurons, trained with rank-order coding for leveraging sparsity [0.2386578882591578]
スパイキングニューラルネットワークは、生物学的ニューロンの特定の側面をエミュレートするニューロモルフィックシステムである。
このデモンストレーションはフォトニック非線形性、励起性、スパース計算を統合し、より効率的な大規模フォトニックニューロモルフィックシステムを実現する。
論文 参考訳(メタデータ) (2024-11-28T15:28:30Z) - Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Efficient and Flexible Method for Reducing Moderate-size Deep Neural Networks with Condensation [36.41451383422967]
科学的応用において、ニューラルネットワークのスケールは概して中規模であり、主に推論の速度を保証する。
既存の研究によると、ニューラルネットワークの強力な能力は、主に非線形性に起因する。
本稿では,本手法の有効性を検証するための凝縮低減アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T06:53:40Z) - Fully Spiking Actor Network with Intra-layer Connections for
Reinforcement Learning [51.386945803485084]
エージェントが制御する多次元決定論的ポリシーを学習する必要があるタスクに焦点をあてる。
既存のスパイクベースのRL法は、SNNの出力として発火率を取り、完全に接続された層を通して連続的なアクション空間(つまり決定論的なポリシー)を表すように変換する。
浮動小数点行列操作を伴わない完全にスパイクするアクターネットワークを開発するため,昆虫に見られる非スパイク介在ニューロンからインスピレーションを得た。
論文 参考訳(メタデータ) (2024-01-09T07:31:34Z) - On the Adversarial Robustness of Quantized Neural Networks [2.0625936401496237]
モデル圧縮技術が敵対攻撃に対するAIアルゴリズムの堅牢性にどのように影響するかは不明である。
本稿では,最も一般的な圧縮手法である量子化がニューラルネットワークの対角的堅牢性に与える影響について検討する。
論文 参考訳(メタデータ) (2021-05-01T11:46:35Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - The Connection Between Approximation, Depth Separation and Learnability
in Neural Networks [70.55686685872008]
学習可能性と近似能力の関係について検討する。
対象関数の深いネットワークでの学習性は、より単純なクラスがターゲットを近似する能力に依存することを示す。
論文 参考訳(メタデータ) (2021-01-31T11:32:30Z) - Neural Sparse Representation for Image Restoration [116.72107034624344]
スパース符号化に基づく画像復元モデルの堅牢性と効率に触発され,深部ネットワークにおけるニューロンの空間性について検討した。
本手法は,隠れたニューロンに対する空間的制約を構造的に強制する。
実験により、複数の画像復元タスクのためのディープニューラルネットワークではスパース表現が不可欠であることが示されている。
論文 参考訳(メタデータ) (2020-06-08T05:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。