論文の概要: From Data Statistics to Feature Geometry: How Correlations Shape Superposition
- arxiv url: http://arxiv.org/abs/2603.09972v1
- Date: Tue, 10 Mar 2026 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.52572
- Title: From Data Statistics to Feature Geometry: How Correlations Shape Superposition
- Title(参考訳): データ統計から特徴幾何学へ:相関がどのように重なり合うか
- Authors: Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano,
- Abstract要約: 機械的解釈可能性における中心的な考え方は、ニューラルネットワークが次元よりも多くの特徴を表現することである。
重ね合わせは、特徴がスパースで非相関な理想的な設定で研究されている。
重ね合わせは一般に、幾何学的に最小化され、非線形性によってフィルタリングされなければならない干渉を導入するものとして理解される。
- 参考スコア(独自算出の注目度): 23.393264014989615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central idea in mechanistic interpretability is that neural networks represent more features than they have dimensions, arranging them in superposition to form an over-complete basis. This framing has been influential, motivating dictionary learning approaches such as sparse autoencoders. However, superposition has mostly been studied in idealized settings where features are sparse and uncorrelated. In these settings, superposition is typically understood as introducing interference that must be minimized geometrically and filtered out by non-linearities such as ReLUs, yielding local structures like regular polytopes. We show that this account is incomplete for realistic data by introducing Bag-of-Words Superposition (BOWS), a controlled setting to encode binary bag-of-words representations of internet text in superposition. Using BOWS, we find that when features are correlated, interference can be constructive rather than just noise to be filtered out. This is achieved by arranging features according to their co-activation patterns, making interference between active features constructive, while still using ReLUs to avoid false positives. We show that this kind of arrangement is more prevalent in models trained with weight decay and naturally gives rise to semantic clusters and cyclical structures which have been observed in real language models yet were not explained by the standard picture of superposition. Code for this paper can be found at https://github.com/LucasPrietoAl/correlations-feature-geometry.
- Abstract(参考訳): 力学的解釈可能性における中心的な考え方は、ニューラルネットワークが次元よりも多くの特徴を表現し、オーバーコンプリート基底を形成するように重ね合わせて配置することである。
このフレーミングは影響力があり、スパースオートエンコーダのような辞書学習アプローチを動機付けてきた。
しかし、重ね合わせは、特徴がスパースで非相関的な理想化された環境で研究されている。
これらの設定では、重ね合わせは一般に、幾何学的に最小化され、ReLUのような非線形性によってフィルタリングされなければならない干渉を導入し、通常のポリトープのような局所構造をもたらすと解釈される。
本報告では,インターネットテキストの2値のbag-of-Words Superposition (BOWS) を重畳で符号化する制御設定を導入することで,現実的なデータに不完全であることを示す。
BOWSを用いて、特徴が相関している場合、干渉は単にノイズを除去するのではなく、構築可能であることを発見した。
これは、コアクティベーションパターンに従って特徴をアレンジし、アクティブな特徴間の干渉を建設的にし、なおも偽陽性を避けるためにReLUを使用して達成される。
重み付けを訓練したモデルでは,このような配置が一般的であることが示され,実言語モデルでは観察されていない意味的クラスタや循環構造が自然に生じる。
この論文のコードはhttps://github.com/LucasPrietoAl/correlations-feature-geometryにある。
関連論文リスト
- Sparse Semantic Dimension as a Generalization Certificate for LLMs [53.681678236115836]
Sparse Semantic Dimension (SSD)は,モデル層上で訓練されたSparse Autoencoder (SAE)のアクティブな特徴語彙から導かれる複雑性尺度である。
我々はGPT-2 Small と Gemma-2B でこの枠組みを検証し、実際のサンプルサイズで非空き証明書を提供することを実証した。
論文 参考訳(メタデータ) (2026-02-11T21:45:18Z) - Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation [29.755551944026738]
幾何的プリミティブの集合の構成と関係によってアイデンティティが決定される抽象的視覚構成について検討する。
AlphaGoスタイルの検索は実現可能であり、微調整された視覚言語モデルは報酬信号としてセマンティックアライメントをスコアする。
ジェネレーティブ・アドバイサル・ネットワークにインスパイアされ、生成したインスタンスを敵の報酬改善に利用します。
論文 参考訳(メタデータ) (2025-12-01T03:38:44Z) - Clustering Inductive Biases with Unrolled Networks [4.47196217712431]
本稿では,2部グラフのラプラシア二次形式を通してスペクトルクラスタリングを行うために,潜在表現を暗黙的に局所的に整理したオートエンコーダアーキテクチャ(WLSC)を提案する。
我々の正規化は、ある種の刺激のクラスに対する受容野の早期特殊化と解釈できることを示す。
論文 参考訳(メタデータ) (2023-11-30T02:02:30Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Sparse, Geometric Autoencoder Models of V1 [2.491226380993217]
本稿では,潜在表現が暗黙的に暗黙的に,スペクトルクラスタリングのために局所的に整理されたオートエンコーダアーキテクチャを提案する。
オートエンコーダの目的関数はスパース符号化フレームワークの中核的な概念を保ちつつも、受容領域の微分を記述するための有望な経路を提供することを示す。
論文 参考訳(メタデータ) (2023-02-22T06:07:20Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Robust Change Detection Based on Neural Descriptor Fields [53.111397800478294]
我々は、部分的に重なり合う観測結果とノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発した。
形状符号の類似性を利用して物体を連想させ, 局所的な物体近傍の空間配置を比較することにより, 観測重複や局所雑音に対する頑健性を示す。
論文 参考訳(メタデータ) (2022-08-01T17:45:36Z) - Deep Parametric Continuous Convolutional Neural Networks [92.87547731907176]
Parametric Continuous Convolutionは、非グリッド構造化データ上で動作する、新たな学習可能な演算子である。
室内および屋外シーンの点雲セグメンテーションにおける最先端技術よりも顕著な改善が見られた。
論文 参考訳(メタデータ) (2021-01-17T18:28:23Z) - A Boundary Regression Model for Nested Named Entity Recognition [17.968819067122418]
名前付きエンティティ(NE)の認識は、文中のNE候補のクラスタグを予測する分類問題として一般的に行われる。
ニューラルネットワークの最近の進歩は、特徴を連続表現に分類する深い構造を採用している。
本稿では,文中のNEを見つけるために回帰演算を導入する。
論文 参考訳(メタデータ) (2020-11-29T10:04:38Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。